В молекулярной биологии и генетике содержание GC (или содержание гуанина-цитозина ) — это процент азотистых оснований в молекуле ДНК или РНК , которые являются либо гуанином (G), либо цитозином (C). [1] Эта мера указывает на долю оснований G и C из предполагаемых четырех общих оснований, включая также аденин и тимин в ДНК и аденин и урацил в РНК.
Содержание GC может быть дано для определенного фрагмента ДНК или РНК или для всего генома . Когда это относится к фрагменту, это может обозначать содержание GC отдельного гена или части гена (домена), группы генов или кластеров генов, некодирующей области или синтетического олигонуклеотида , такого как праймер .
Качественно, гуанин (G) и цитозин (C) подвергаются специфическому водородному связыванию друг с другом, тогда как аденин (A) связывается специфически с тимином (T) в ДНК и с урацилом (U) в РНК. Количественно, каждая пара оснований GC удерживается вместе тремя водородными связями, тогда как пары оснований AT и AU удерживаются вместе двумя водородными связями. Чтобы подчеркнуть это различие, пары оснований часто представляются как «G≡C» вместо «A=T» или «A=U».
ДНК с низким содержанием GC менее стабильна, чем ДНК с высоким содержанием GC; однако водородные связи сами по себе не оказывают особенно значительного влияния на молекулярную стабильность, которая вместо этого обусловлена в основном молекулярными взаимодействиями укладки оснований. [2] Несмотря на более высокую термостабильность, присущую нуклеиновой кислоте с высоким содержанием GC, было замечено, что по крайней мере некоторые виды бактерий с ДНК с высоким содержанием GC легче подвергаются автолизу , тем самым сокращая продолжительность жизни клетки как таковой . [3] Из-за термостабильности пар GC когда-то предполагалось, что высокое содержание GC является необходимой адаптацией к высоким температурам, но эта гипотеза была опровергнута в 2001 году. [4] Тем не менее, было показано, что существует сильная корреляция между оптимальным ростом прокариот при более высоких температурах и содержанием GC структурных РНК, таких как рибосомальная РНК , транспортная РНК и многие другие некодирующие РНК . [4] [5] Пары оснований AU менее стабильны, чем пары оснований GC, что делает структуры РНК с высоким содержанием GC более устойчивыми к воздействию высоких температур.
Совсем недавно было показано, что наиболее важным фактором, способствующим термической стабильности двухцепочечных нуклеиновых кислот, на самом деле является укладка соседних оснований, а не количество водородных связей между основаниями. Для пар GC существует более благоприятная энергия укладки, чем для пар AT или AU из-за относительного положения экзоциклических групп. Кроме того, существует корреляция между порядком, в котором укладываются основания, и термической стабильностью молекулы в целом. [6]
Содержание GC обычно выражается в процентах, но иногда в виде отношения (называемого отношением G+C или отношением GC ). Процент содержания GC рассчитывается как [7]
тогда как соотношение AT/GC рассчитывается как [8]
Процент содержания GC, а также GC-соотношение можно измерить несколькими способами, но одним из самых простых методов является измерение температуры плавления двойной спирали ДНК с помощью спектрофотометрии . Поглощение ДНК на длине волны 260 нм довольно резко увеличивается, когда двухцепочечная молекула ДНК разделяется на две одинарные нити при достаточном нагревании. [9] Наиболее часто используемый протокол для определения GC-соотношений использует проточную цитометрию для большого количества образцов. [10]
Альтернативным способом является то, что если исследуемая молекула ДНК или РНК надежно секвенирована , то содержание ГЦ можно точно рассчитать с помощью простых арифметических действий или с помощью различных общедоступных программных инструментов, таких как бесплатный онлайн-калькулятор ГЦ.
Обнаружено, что соотношение GC в геноме заметно варьируется. Эти вариации соотношения GC в геномах более сложных организмов приводят к образованию мозаично-подобных образований с островковыми областями, называемыми изохорами . [11] Это приводит к вариациям в интенсивности окрашивания хромосом . [12] Богатые GC изохоры обычно включают в себя множество генов, кодирующих белки, и, таким образом, определение соотношений GC этих конкретных областей способствует картированию богатых генами областей генома. [13] [14]
В пределах длинной области геномной последовательности гены часто характеризуются более высоким содержанием GC по сравнению с фоновым содержанием GC для всего генома. [15] Имеются данные о том, что длина кодирующей области гена прямо пропорциональна более высокому содержанию G+C. [16] Это указывает на тот факт, что стоп-кодон имеет смещение в сторону нуклеотидов A и T, и , таким образом, чем короче последовательность, тем выше смещение AT. [17]
Сравнение более 1000 ортологичных генов у млекопитающих выявило выраженные внутригеномные вариации содержания GC в позиции третьего кодона с диапазоном от менее 30% до более 80%. [18]
Содержание GC, как выяснилось, варьируется в зависимости от организма, и предполагается, что этот процесс обусловлен вариациями в отборе , мутационными смещениями и смещенной рекомбинационной репарацией ДНК . [19]
Среднее содержание GC в геномах человека колеблется от 35% до 60% по фрагментам размером 100 Кб, со средним значением 41%. [20] Содержание GC у дрожжей ( Saccharomyces cerevisiae ) составляет 38%, [21] а у другого распространенного модельного организма , кресс-салата Таля ( Arabidopsis thaliana ), — 36%. [22] Из-за природы генетического кода практически невозможно, чтобы организм имел геном с содержанием GC, приближающимся либо к 0%, либо к 100%. Однако видом с чрезвычайно низким содержанием GC является Plasmodium falciparum (GC% = ~20%), [23] и обычно такие примеры называют AT-богатыми, а не GC-бедными. [24]
Несколько видов млекопитающих (например, землеройка , микроб , тенрек , кролик ) независимо друг от друга претерпели заметное увеличение содержания GC в своих генах. Эти изменения содержания GC коррелируют с особенностями жизненного цикла вида (например, массой тела или продолжительностью жизни) и размером генома [ 18] и могут быть связаны с молекулярным явлением, называемым GC-смещенной генной конверсией [25] .
В экспериментах с полимеразной цепной реакцией (ПЦР) содержание GC коротких олигонуклеотидов, известных как праймеры, часто используется для прогнозирования их температуры отжига с шаблонной ДНК. Более высокий уровень содержания GC указывает на относительно более высокую температуру плавления.
Многие технологии секвенирования, такие как секвенирование Illumina , имеют проблемы с чтением последовательностей с высоким содержанием GC. Известно, что геномы птиц имеют много таких частей, что приводит к проблеме «отсутствующих генов», которые, как ожидается, присутствуют в ходе эволюции и фенотипа, но никогда не секвенировались — пока не были использованы улучшенные методы. [26]
Проблема видов в неэукариотической таксономии привела к различным предложениям по классификации бактерий, и специальный комитет по согласованию подходов к бактериальной систематике 1987 года рекомендовал использовать GC-соотношения в иерархической классификации более высокого уровня. [27] Например, Actinomycetota характеризуются как « бактерии с высоким содержанием GC ». [28] У Streptomyces coelicolor A3(2) содержание GC составляет 72%. [29] С использованием более надежных современных методов молекулярной систематики определение GC-содержания Actinomycetota было отменено, и были обнаружены бактерии с низким содержанием GC этой клады . [30]
GCSpeciesSorter [31] и TopSort [32] — это программные инструменты для классификации видов на основе их GC-содержания.