В молекулярной биологии и генетике содержание GC (или содержание гуанина-цитозина ) — это процент азотистых оснований в молекуле ДНК или РНК , которые представляют собой либо гуанин (G), либо цитозин (C). [1] Эта мера показывает долю оснований G и C из четырех подразумеваемых оснований, включая аденин и тимин в ДНК, а также аденин и урацил в РНК.
GC-контент может быть указан для определенного фрагмента ДНК или РНК или для всего генома . Когда оно относится к фрагменту, оно может обозначать GC-содержание отдельного гена или участка гена (домена), группы генов или кластеров генов, некодирующей области или синтетического олигонуклеотида , такого как праймер .
Качественно гуанин (G) и цитозин (C) образуют специфическую водородную связь друг с другом, тогда как аденин (А) связывается специфически с тимином (Т) в ДНК и с урацилом (U) в РНК. Количественно каждая пара оснований GC удерживается вместе тремя водородными связями, а пары оснований AT и AU удерживаются вместе двумя водородными связями. Чтобы подчеркнуть это различие, пары оснований часто обозначаются как «G≡C» вместо «A=T» или «A=U».
ДНК с низким содержанием GC менее стабильна, чем ДНК с высоким содержанием GC; однако сами по себе водородные связи не оказывают особенно существенного влияния на молекулярную стабильность, которая вместо этого обусловлена главным образом молекулярными взаимодействиями при упаковке оснований. [2] Несмотря на более высокую термостабильность , присущую нуклеиновой кислоте с высоким содержанием GC, было замечено, что по крайней мере некоторые виды бактерий с ДНК с высоким содержанием GC легче подвергаются аутолизу , тем самым сокращая продолжительность жизни клетки. как таковой . [3] Из-за термостабильности пар GC когда-то предполагалось, что высокое содержание GC было необходимой адаптацией к высоким температурам, но эта гипотеза была опровергнута в 2001 году. [4] Несмотря на это, было показано, что существует сильная корреляция между оптимальным ростом прокариот при более высоких температурах и содержанием GC в структурных РНК, таких как рибосомальная РНК , транспортная РНК и многие другие некодирующие РНК . [4] [5] Пары оснований AU менее стабильны, чем пары оснований GC, что делает структуры РНК с высоким содержанием GC более устойчивыми к воздействию высоких температур.
Совсем недавно было продемонстрировано, что наиболее важный фактор, способствующий термической стабильности двухцепочечных нуклеиновых кислот, на самом деле обусловлен укладкой оснований соседних оснований, а не количеством водородных связей между основаниями. Для пар GC существует более благоприятная энергия упаковки, чем для пар AT или AU из-за относительного положения экзоциклических групп. Кроме того, существует корреляция между порядком укладки оснований и термической стабильностью молекулы в целом. [6]
Содержание GC обычно выражается в процентах, но иногда и в виде соотношения (так называемое соотношение G+C или соотношение GC ). Процент содержания GC рассчитывается как [7]
тогда как соотношение AT/GC рассчитывается как [8]
Процентное содержание GC, а также соотношение GC можно измерить несколькими способами, но одним из самых простых методов является измерение температуры плавления двойной спирали ДНК с помощью спектрофотометрии . Поглощение ДНК на длине волны 260 нм довольно резко возрастает , когда двухцепочечная молекула ДНК при достаточном нагревании разделяется на две одиночные нити. [9] Наиболее часто используемый протокол для определения GC-соотношений использует проточную цитометрию для большого количества образцов. [10]
Альтернативно, если исследуемая молекула ДНК или РНК была надежно секвенирована , то содержание GC можно точно рассчитать с помощью простой арифметики или с помощью различных общедоступных программных инструментов, таких как бесплатный онлайн-калькулятор GC.
Обнаружено, что соотношение GC в геноме заметно варьирует. Эти изменения в соотношении GC в геномах более сложных организмов приводят к мозаичному образованию с островковыми областями, называемыми изохорами . [11] Это приводит к различиям в интенсивности окрашивания хромосом . [12] Изохоры, богатые GC, обычно включают в себя множество генов, кодирующих белок, и, таким образом, определение соотношений GC в этих конкретных регионах способствует картированию богатых генами областей генома. [13] [14]
В пределах длинной области геномной последовательности гены часто характеризуются более высоким содержанием GC по сравнению с фоновым содержанием GC для всего генома. [15] Имеются данные о том, что длина кодирующей области гена прямо пропорциональна более высокому содержанию G+C. [16] Это было указано на тот факт, что стоп-кодон имеет смещение в сторону нуклеотидов А и Т, и, таким образом, чем короче последовательность, тем выше смещение АТ. [17]
Сравнение более 1000 ортологичных генов млекопитающих показало заметные внутригеномные вариации содержания GC в положении третьего кодона в диапазоне от менее 30% до более 80%. [18]
Было обнаружено, что содержание GC варьируется у разных организмов, и предполагается, что на этот процесс влияют различия в отборе , мутационная предвзятость и предвзятая рекомбинация, связанная с репарацией ДНК . [19]
Среднее содержание GC в геномах человека колеблется от 35% до 60% для фрагментов размером 100 КБ, в среднем 41%. [20] Содержание GC в дрожжах ( Saccharomyces cerevisiae ) составляет 38%, [21] а в другом распространенном модельном организме , кресс-салате ( Arabidopsis thaliana ), — 36%. [22] Из-за природы генетического кода для организма практически невозможно иметь геном с содержанием GC, приближающимся к 0% или 100%. Однако видом с чрезвычайно низким содержанием GC является Plasmodium falciparum (GC% = ~20%) [23] , и такие примеры обычно называют богатыми AT, а не бедными GC. [24]
Несколько видов млекопитающих (например, землеройка , летучая мышь , тенрек , кролик ) независимо претерпели заметное увеличение содержания GC в своих генах. Эти изменения содержания GC коррелируют с особенностями жизненного цикла вида (например, массой тела или продолжительностью жизни) и размером генома [18] и могут быть связаны с молекулярным феноменом, называемым конверсией генов , ориентированной на GC . [25]
В экспериментах с полимеразной цепной реакцией (ПЦР) содержание GC в коротких олигонуклеотидах, известных как праймеры , часто используется для прогнозирования температуры их отжига с матричной ДНК. Более высокий уровень содержания GC указывает на относительно более высокую температуру плавления.
Многие технологии секвенирования, такие как секвенирование Illumina , не позволяют считывать последовательности с высоким содержанием GC. Известно, что в геномах птиц много таких частей, что приводит к проблеме «недостающих генов», которые, как ожидалось, присутствовали в результате эволюции и фенотипа, но никогда не были секвенированы — до тех пор, пока не были использованы улучшенные методы. [26]
Проблема видов в неэукариотической таксономии привела к различным предложениям по классификации бактерий, а специальный комитет по согласованию подходов к бактериальной систематике в 1987 году рекомендовал использовать GC-отношения в иерархической классификации более высокого уровня. [27] Например, Actinomycetota характеризуются как « бактерии с высоким содержанием GC ». [28] В Streptomyces coelicolor A3(2) содержание GC составляет 72%. [29] С использованием более надежных, современных методов молекулярной систематики определение содержания GC в Actinomycetota было отменено, и были обнаружены бактерии этой клады с низким содержанием GC. [30]
GCSpeciesSorter [31] и TopSort [32] — это программные инструменты для классификации видов на основе их GC-содержания.