Регион кодирования

Кодирующая область гена , также известная как кодирующая последовательность ( CDS ), представляет собой часть ДНК или РНК гена, которая кодирует белок . ^[1] Изучение длины, состава, регуляции, сплайсинга, структуры и функций кодирующих областей по сравнению с некодирующими областями на протяжении разных видов и периодов времени может предоставить значительный объем важной информации относительно организации генов и эволюции прокариот и эукариот . ^[2] Это может дополнительно помочь в картировании генома человека и разработке генной терапии. ^[3]

Определение

Хотя этот термин также иногда используется взаимозаменяемо с экзоном , это не одно и то же: экзон состоит из кодирующей области, а также 3'- и 5'- нетранслируемых областей РНК, поэтому экзон будет называться частично состоит из кодирующих областей. 3'- и 5'- нетранслируемые области РНК, которые не кодируют белок, называются некодирующими областями и не обсуждаются на этой странице. ^[4]

Часто возникает путаница между кодирующими областями и экзомами , и между этими терминами существует четкое различие. В то время как экзом относится ко всем экзонам в геноме, кодирующая область относится к отдельному участку ДНК или РНК, который специфически кодирует определенный вид белка.

История

В 1978 году Уолтер Гилберт опубликовал книгу «Почему гены разбиты на части», в которой впервые началось исследование идеи о том, что ген представляет собой мозаику — что каждая полная цепь нуклеиновой кислоты не кодируется непрерывно, а прерывается «молчащими» некодирующими областями. Это было первое указание на то, что необходимо проводить различие между частями генома, кодирующими белок (теперь называемые кодирующими областями), и теми, которые этого не делают. ^[5]

Состав

**Типы точечных мутаций:** количество переходов (синий) увеличено по сравнению с трансверсиями (красный) в кодирующих регионах, богатых GC.

Имеющиеся данные свидетельствуют о том, что существует общая взаимозависимость между шаблонами базового состава и доступностью региона кодирования. ^[6] Считается, что кодирующая область содержит более высокое содержание GC , чем некодирующая область. Дальнейшие исследования показали, что чем длиннее кодирующая цепь, тем выше содержание GC. Короткие кодирующие цепи все еще сравнительно бедны GC, подобно низкому содержанию GC в базовых стоп-кодонах трансляции , таких как TAG, TAA и TGA. ^[7]

Области, богатые GC, также немного изменяются в областях, где тип мутации точки отношения меняется: здесь больше переходов , которые представляют собой изменения от пурина к пурину или от пиримидина к пиримидину, по сравнению с трансверсиями , которые представляют собой изменения от пурина к пиримидину или от пиримидина к пурину. Переходы с меньшей вероятностью изменяют кодируемую аминокислоту и остаются молчащей мутацией (особенно если они происходят в третьем нуклеотиде кодона), что обычно полезно для организма во время трансляции и образования белка. ^[8]

Это указывает на то, что существенные кодирующие области (богатые генами) имеют более высокое содержание GC, более стабильны и устойчивы к мутациям по сравнению с дополнительными и несущественными областями (бедными генами). ^[9] Однако до сих пор неясно, произошло ли это в результате нейтральной и случайной мутации или в результате отбора . ^[10] Также ведутся споры о том, являются ли методы, используемые, такие как генные окна, для установления взаимосвязи между содержанием GC и кодирующей областью, точными и объективными. ^[11]

Структура и функции

В ДНК кодирующая область фланкирована промоторной последовательностью на 5'-конце матричной цепи и терминирующей последовательностью на 3'-конце. Во время транскрипции РНК -полимераза (РНКП) связывается с последовательностью промотора и перемещается по цепи матрицы к кодирующей области. Затем РНКП добавляет нуклеотиды РНК , комплементарные кодирующей области, чтобы сформировать мРНК , заменяя тимин урацилом . ^[12] Это продолжается до тех пор, пока РНКП не достигнет последовательности терминации. ^[12]

После транскрипции и созревания образующаяся зрелая мРНК включает в себя множество частей, важных для ее возможной трансляции в белок . Кодирующая область мРНК фланкирована 5'-нетранслируемой областью (5'-UTR) и 3'-нетранслируемой областью (3'-UTR), ^[1] 5' -кэпом и поли-А-хвостом . Во время трансляции рибосома облегчает прикрепление тРНК к кодирующей области по 3 нуклеотида за раз ( кодоны ) . ^[13] ТРНК переносят связанные с ними аминокислоты в растущую полипептидную цепь, в конечном итоге образуя белок, определенный в исходной кодирующей области ДНК.

Регулирование

Кодирующая область может быть модифицирована для регулирования экспрессии генов.

Алкилирование является одной из форм регуляции кодирующей области. ^[15] Ген, который должен был быть транскрибирован, можно заставить замолчать, нацелившись на определенную последовательность. Основания в этой последовательности будут блокироваться с помощью алкильных групп , которые создают эффект молчания . ^[16]

Хотя регуляция экспрессии генов управляет обилием РНК или белка, образующихся в клетке, регуляция этих механизмов может контролироваться регуляторной последовательностью , обнаруженной до того, как в цепи ДНК начнется открытая рамка считывания . Регуляторная последовательность затем будет определять место и время, когда будет происходить экспрессия области, кодирующей белок. ^[17]

Сплайсинг РНК в конечном итоге определяет, какая часть последовательности транслируется и экспрессируется, и этот процесс включает вырезание интронов и соединение экзонов. Однако место разрезания сплайсосомы РНК определяется распознаванием сайтов сплайсинга , в частности 5'-сайта сплайсинга, который является одним из субстратов для первого этапа сплайсинга. ^[18] Кодирующие области находятся внутри экзонов, которые ковалентно соединяются вместе, образуя зрелую информационную РНК .

Мутации

Мутации в кодирующей области могут оказывать весьма разнообразное влияние на фенотип организма. Хотя некоторые мутации в этой области ДНК/РНК могут привести к полезным изменениям, другие могут быть вредными, а иногда даже смертельными для выживания организма. Напротив, изменения в некодирующей области не всегда могут приводить к обнаруживаемым изменениям фенотипа.

Типы мутаций

Существуют различные формы мутаций, которые могут возникать в кодирующих регионах. Одной из форм являются молчащие мутации , при которых изменение нуклеотидов не приводит к каким-либо изменениям аминокислот после транскрипции и трансляции. ^[20] Также существуют нонсенс-мутации , при которых изменения оснований в кодирующей области кодируют преждевременный стоп-кодон, производя более короткий конечный белок. Точечные мутации или изменения одной пары оснований в кодирующей области, которые кодируют разные аминокислоты во время трансляции, называются миссенс-мутациями . Другие типы мутаций включают мутации сдвига рамки считывания , такие как вставки или делеции . ^[20]

Формирование

Некоторые формы мутаций являются наследственными ( мутации зародышевой линии ) или передаются от родителя к потомству. ^[21] Такие мутированные кодирующие области присутствуют во всех клетках организма. Другие формы мутаций приобретаются ( соматические мутации ) в течение жизни организма и не могут быть постоянными от клетки к клетке. ^[21] Эти изменения могут быть вызваны мутагенами , канцерогенами или другими агентами окружающей среды (например, УФ ). Приобретенные мутации также могут быть результатом ошибок копирования во время репликации ДНК и не передаются потомству. Изменения в области кодирования также могут быть de novo (новыми); Считается, что такие изменения происходят вскоре после оплодотворения , что приводит к мутации, присутствующей в ДНК потомства, но отсутствующей как в сперматозоидах, так и в яйцеклетках. ^[21]

Профилактика

Существует множество механизмов транскрипции и трансляции, предотвращающих летальность из-за вредных мутаций в кодирующей области. Такие меры включают корректуру некоторыми ДНК-полимеразами во время репликации, восстановление несоответствий после репликации ^[22] и « гипотезу колебания », которая описывает вырождение третьего основания в кодоне мРНК. ^[23]

Области ограниченного кодирования (CCR)

Хотя хорошо известно, что геном одного человека может иметь значительные различия по сравнению с геномом другого, недавние исследования показали, что некоторые кодирующие области сильно ограничены или устойчивы к мутациям между особями одного и того же вида. Это похоже на концепцию межвидового ограничения в консервативных последовательностях . Исследователи назвали эти сильно ограниченные последовательности ограниченными кодирующими областями (CCR), а также обнаружили, что такие области могут участвовать в отборе с высокой степенью очистки . В среднем на каждые 7 кодирующих оснований приходится примерно 1 мутация, изменяющая белок, но некоторые CCR могут иметь более 100 оснований в последовательности без наблюдаемых мутаций, изменяющих белок, а некоторые даже без синонимичных мутаций. ^[24] Эти закономерности ограничения между геномами могут дать ключ к разгадке источников редких заболеваний развития или, возможно, даже эмбриональной смертности. Клинически подтвержденные варианты и мутации de novo в CCR ранее были связаны с такими расстройствами, как детская эпилептическая энцефалопатия , задержка развития и тяжелые заболевания сердца. ^[24]

Обнаружение последовательности кодирования

Хотя идентификация открытых рамок считывания в последовательности ДНК является простой задачей, идентификация кодирующих последовательностей не является сложной задачей, поскольку клетка транслирует в белки только подмножество всех открытых рамок считывания. ^[26] В настоящее время предсказание CDS использует выборку и секвенирование мРНК из клеток, хотя все еще существует проблема определения того, какие части данной мРНК на самом деле транслируются в белок. Прогнозирование CDS — это подмножество предсказания генов , причем последнее также включает предсказание последовательностей ДНК, которые кодируют не только белок, но и другие функциональные элементы, такие как гены РНК и регуляторные последовательности.

Как у прокариот , так и у эукариот перекрытие генов происходит относительно часто как в ДНК, так и в РНК-вирусах, что является эволюционным преимуществом, позволяющим уменьшить размер генома, сохраняя при этом способность производить различные белки из доступных кодирующих областей. ^[27]^[28] Как для ДНК, так и для РНК парное выравнивание может обнаружить перекрывающиеся кодирующие области, включая короткие открытые рамки считывания в вирусах, но для сравнения с потенциально перекрывающейся кодирующей цепью потребуется известная кодирующая цепь. ^[29] Альтернативный метод с использованием отдельных последовательностей генома не потребует нескольких последовательностей генома для выполнения сравнений, но потребует перекрытия как минимум 50 нуклеотидов, чтобы быть чувствительным. ^[30]

Смотрите также

Кодирующая цепь: Нить ДНК, кодирующая белок.
Экзон Вся транскрибируемая часть цепи
Зрелая мРНК. Часть продукта транскрипции мРНК, которая транслируется.
Структура гена Другие элементы, составляющие ген.
Вложенный ген. Вся кодирующая последовательность находится в пределах более крупного внешнего гена.
Некодирующая ДНК Части генома, не кодирующие гены, кодирующие белки.
Некодирующие молекулы РНК, которые не кодируют белки и поэтому не имеют CDS.
Нефункциональная ДНК. Части генома, не имеющие соответствующей биологической функции.