Кодирующая область

Кодирующая область гена , также известная как кодирующая последовательность ДНК ( CDS ), представляет собой часть ДНК или РНК гена , которая кодирует белок . ^[1] Изучение длины, состава, регуляции, сплайсинга, структур и функций кодирующих областей по сравнению с некодирующими областями у разных видов и в разные периоды времени может предоставить значительный объем важной информации относительно организации генов и эволюции прокариот и эукариот . ^[2] Это может дополнительно помочь в картировании генома человека и разработке генной терапии. ^[3]

Определение

Хотя этот термин иногда используется взаимозаменяемо с экзоном , это не совсем одно и то же: экзон состоит из кодирующей области, а также 3' и 5' нетранслируемых областей РНК, и поэтому экзон будет частично состоять из кодирующих областей. 3' и 5' нетранслируемые области РНК, которые не кодируют белок, называются некодирующими областями и не обсуждаются на этой странице. ^[4]

Часто возникает путаница между кодирующими областями и экзомами , и между этими терминами существует четкое различие. В то время как экзом относится ко всем экзонам в геноме, кодирующий регион относится к единственному участку ДНК или РНК, который кодирует определенный вид белка.

История

В 1978 году Уолтер Гилберт опубликовал статью «Почему гены по частям», в которой впервые начала изучаться идея о том, что ген представляет собой мозаику — что каждая полная цепочка нуклеиновой кислоты не кодируется непрерывно, а прерывается «молчаливыми» некодирующими областями. Это было первым указанием на необходимость проведения различия между частями генома, которые кодируют белок, теперь называемыми кодирующими областями, и теми, которые этого не делают. ^[5]

Состав

**Типы точечных мутаций:** транзиции (синие) встречаются чаще, чем трансверсии (красные) в кодирующих областях, богатых GC.

Данные свидетельствуют о том, что существует общая взаимозависимость между моделями состава оснований и доступностью кодирующей области. ^[6] Предполагается, что кодирующая область содержит более высокое содержание GC , чем некодирующие области. Существуют дополнительные исследования, которые обнаружили, что чем длиннее кодирующая цепь, тем выше содержание GC. Короткие кодирующие цепи сравнительно бедны GC, подобно низкому содержанию GC в трансляционных стоп-кодонах состава оснований, таких как TAG, TAA и TGA. ^[7]

Области, богатые GC, также являются местами, где тип точечных мутаций немного изменен: больше переходов , которые являются изменениями с пурина на пурин или с пиримидина на пиримидин, по сравнению с трансверсиями , которые являются изменениями с пурина на пиримидин или с пиримидина на пурин. Переходы с меньшей вероятностью изменят кодируемую аминокислоту и останутся молчаливой мутацией (особенно если они происходят в третьем нуклеотиде кодона), что обычно полезно для организма во время трансляции и образования белка. ^[8]

Это указывает на то, что основные кодирующие регионы (богатые генами) имеют более высокое содержание GC и более стабильны и устойчивы к мутациям по сравнению с дополнительными и неосновными регионами (бедными генами). ^[9] Однако до сих пор неясно, произошло ли это посредством нейтральной и случайной мутации или посредством модели отбора . ^[10] Также ведутся споры о том, являются ли методы, используемые для установления связи между содержанием GC и кодирующей областью, точными и беспристрастными. ^[11]

Структура и функции

В ДНК кодирующая область фланкирована последовательностью промотора на 5'-конце цепи матрицы и последовательностью терминации на 3'-конце. Во время транскрипции РНК -полимераза (РНКП) связывается с последовательностью промотора и перемещается вдоль цепи матрицы к кодирующей области. Затем РНКП добавляет нуклеотиды РНК , комплементарные кодирующей области, для формирования мРНК , заменяя урацил на тимин . ^[12] Это продолжается до тех пор, пока РНКП не достигнет последовательности терминации. ^[12]

После транскрипции и созревания образовавшаяся зрелая мРНК включает в себя несколько частей, важных для ее конечной трансляции в белок . Кодирующая область в мРНК фланкирована 5'-нетранслируемой областью (5'-UTR) и 3'-нетранслируемой областью (3'-UTR), ^[1] 5' -кэпом и поли-А-хвостом . Во время трансляции рибосома облегчает присоединение тРНК к кодирующей области, по 3 нуклеотида за раз ( кодоны ). ^[13]ТРНК переносят связанные с ними аминокислоты в растущую полипептидную цепь, в конечном итоге образуя белок, определенный в исходной кодирующей области ДНК.

Регулирование

Кодирующую область можно модифицировать с целью регулирования экспрессии генов.

Алкилирование является одной из форм регуляции кодирующей области. ^[15] Ген, который должен был быть транскрибирован, может быть заглушен путем нацеливания на определенную последовательность. Основания в этой последовательности будут заблокированы с помощью алкильных групп , которые создают эффект заглушения . ^[16]

В то время как регуляция экспрессии генов управляет обилием РНК или белка, производимых в клетке, регуляция этих механизмов может контролироваться регуляторной последовательностью, обнаруженной до начала открытой рамки считывания в цепи ДНК. Регуляторная последовательность затем определит место и время, когда экспрессия будет происходить для области кодирования белка. ^[17]

Сплайсинг РНК в конечном итоге определяет, какая часть последовательности будет транслироваться и экспрессироваться, и этот процесс включает вырезание интронов и сборку экзонов. Однако то, где РНК- сплайсосома разрезает, определяется распознаванием сайтов сплайсинга , в частности сайта сплайсинга 5', который является одним из субстратов для первого шага сплайсинга. ^[18] Кодирующие области находятся внутри экзонов, которые ковалентно соединяются вместе, образуя зрелую информационную РНК .

Мутации

Мутации в кодирующей области могут иметь самые разные эффекты на фенотип организма. В то время как некоторые мутации в этой области ДНК/РНК могут приводить к полезным изменениям, другие могут быть вредными и иногда даже смертельными для выживания организма. Напротив, изменения в некодирующей области не всегда могут приводить к обнаруживаемым изменениям в фенотипе.

Типы мутаций

Существуют различные формы мутаций, которые могут происходить в кодирующих областях. Одна из форм — молчаливые мутации , при которых изменение нуклеотидов не приводит к изменению аминокислоты после транскрипции и трансляции. ^[20] Существуют также бессмысленные мутации , при которых изменения оснований в кодирующей области кодируют преждевременный стоп-кодон, производя более короткий конечный белок. Точечные мутации , или изменения одной пары оснований в кодирующей области, которые кодируют различные аминокислоты во время трансляции, называются миссенс-мутациями . Другие типы мутаций включают мутации со сдвигом рамки считывания, такие как вставки или делеции . ^[20]

Формирование

Некоторые формы мутаций являются наследственными ( мутации зародышевой линии ) или передаются от родителя к потомству. ^[21] Такие мутировавшие кодирующие области присутствуют во всех клетках организма. Другие формы мутаций приобретаются ( соматические мутации ) в течение жизни организма и могут не быть постоянными от клетки к клетке. ^[21] Эти изменения могут быть вызваны мутагенами , канцерогенами или другими агентами окружающей среды (например, УФ ). Приобретенные мутации также могут быть результатом ошибок копирования во время репликации ДНК и не передаются потомству. Изменения в кодирующей области также могут быть de novo (новыми); считается, что такие изменения происходят вскоре после оплодотворения , в результате чего мутация присутствует в ДНК потомства, но отсутствует как в сперматозоидах, так и в яйцеклетках. ^[21]

Профилактика

Существуют множественные механизмы транскрипции и трансляции для предотвращения летальности из-за вредных мутаций в кодирующей области. Такие меры включают в себя проверку некоторыми ДНК-полимеразами во время репликации, исправление несоответствий после репликации ^[22] и « гипотезу колебания », которая описывает вырождение третьего основания в кодоне мРНК. ^[23]

Ограниченные кодирующие области (CCR)

Хотя хорошо известно, что геном одного человека может иметь значительные различия по сравнению с геномом другого, недавние исследования показали, что некоторые кодирующие регионы сильно ограничены или устойчивы к мутациям между особями одного вида. Это похоже на концепцию межвидового ограничения в консервативных последовательностях . Исследователи назвали эти сильно ограниченные последовательности ограниченными кодирующими регионами (CCR), и также обнаружили, что такие регионы могут быть вовлечены в высокоочищающий отбор . В среднем на каждые 7 кодирующих оснований приходится приблизительно 1 мутация, изменяющая белок, но некоторые CCR могут иметь более 100 оснований в последовательности без наблюдаемых мутаций, изменяющих белок, некоторые даже без синонимичных мутаций. ^[24] Эти модели ограничений между геномами могут дать подсказки об источниках редких заболеваний развития или потенциально даже эмбриональной летальности. Клинически подтвержденные варианты и мутации de novo в CCR ранее были связаны с такими расстройствами, как детская эпилептическая энцефалопатия , задержка развития и тяжелые заболевания сердца. ^[24]

Обнаружение кодирующей последовательности

В то время как идентификация открытых рамок считывания в последовательности ДНК проста, идентификация кодирующих последовательностей не так проста, поскольку клетка транслирует только подмножество всех открытых рамок считывания в белки. ^[26] В настоящее время прогнозирование CDS использует отбор проб и секвенирование мРНК из клеток, хотя все еще существует проблема определения того, какие части данной мРНК фактически транслируются в белок. Прогнозирование CDS является подмножеством прогнозирования генов , причем последнее также включает прогнозирование последовательностей ДНК, которые кодируют не только белок, но и другие функциональные элементы, такие как гены РНК и регуляторные последовательности.

Как у прокариот , так и у эукариот перекрытие генов происходит относительно часто как у ДНК-, так и у РНК-вирусов как эволюционное преимущество для уменьшения размера генома при сохранении способности производить различные белки из доступных кодирующих областей. ^[27]^[28] Как для ДНК, так и для РНК парное выравнивание может обнаружить перекрывающиеся кодирующие области, включая короткие открытые рамки считывания в вирусах, но для сравнения потенциально перекрывающейся кодирующей цепи с известной кодирующей цепью потребуется известная кодирующая цепь. ^[29] Альтернативный метод, использующий последовательности одного генома, не потребует нескольких геномных последовательностей для выполнения сравнений, но для обеспечения чувствительности потребуется перекрытие не менее 50 нуклеотидов. ^[30]

Смотрите также

Кодирующая цепь Цепь ДНК, кодирующая белок.
Экзон Вся часть цепи, которая транскрибируется
Зрелая мРНК Часть продукта транскрипции мРНК, которая транслируется
Структура гена Другие элементы, составляющие ген
Вложенный ген Вся кодирующая последовательность находится в пределах более крупного внешнего гена.
Некодирующая ДНК Части геномов, которые не кодируют гены, кодирующие белки.
Некодирующие РНК Молекулы, которые не кодируют белки, поэтому не имеют CDS
Нефункциональная ДНК Части геномов, не имеющие соответствующей биологической функции.

Ссылки

^ ab Twyman, Richard (1 августа 2003 г.). "Gene Structure". The Wellcome Trust. Архивировано из оригинала 28 марта 2007 г. Получено 6 апреля 2003 г.
^ Höglund M, Säll T, Röhme D (февраль 1990). «О происхождении кодирующих последовательностей из случайных открытых рамок считывания». Journal of Molecular Evolution . 30 (2): 104–108. Bibcode : 1990JMolE..30..104H. doi : 10.1007/bf02099936. ISSN 0022-2844. S2CID 5978109.
^ Sakharkar MK, Chow VT, Kangueane P (2004). «Распределение экзонов и интронов в геноме человека». In Silico Biology . 4 (4): 387–93. PMID 15217358.
^ Парнелл, Лоуренс Д. (2012-01-01). «Достижения в технологиях и дизайне исследований». В Bouchard, C.; Ordovas, JM (ред.). Последние достижения в области нутригенетики и нутригеномики . Том 108. Academic Press. стр. 17–50. doi :10.1016/B978-0-12-398397-8.00002-2. ISBN 9780123983978. PMID 22656372 . Получено 2019-11-07 . {{cite book}}: |journal=проигнорировано ( помощь )
^ Gilbert W (февраль 1978). "Почему гены разделены на части?". Nature . 271 (5645): 501. Bibcode : 1978Natur.271..501G. doi : 10.1038/271501a0 . PMID 622185. S2CID 4216649.
^ Lercher MJ, Urrutia AO, Pavlícek A, Hurst LD (октябрь 2003 г.). «Унификация мозаичных структур в геноме человека». Молекулярная генетика человека . 12 (19): 2411–5. doi : 10.1093/hmg/ddg251 . PMID 12915446.
^ Оливер Дж. Л., Марин А. (сентябрь 1996 г.). «Связь между содержанием GC и длиной кодирующей последовательности». Журнал молекулярной эволюции . 43 (3): 216–23. Bibcode : 1996JMolE..43..216O. doi : 10.1007/pl00006080. PMID 8703087.
^ "ROSALIND | Глоссарий | Кодирующая область гена". rosalind.info . Получено 2019-10-31 .
^ Виноградов А.Е. (апрель 2003 г.). «Спираль ДНК: важность богатства GC». Nucleic Acids Research . 31 (7): 1838–44. doi :10.1093/nar/gkg296. PMC 152811. PMID 12654999 .
^ Bohlin J, Eldholm V, Pettersson JH, Brynildsrud O, Snipen L (февраль 2017 г.). «Нуклеотидный состав микробных геномов указывает на дифференциальные закономерности отбора в основных и дополнительных геномах». BMC Genomics . 18 (1): 151. doi : 10.1186/s12864-017-3543-7 . PMC 5303225 . PMID 28187704.
^ Sémon M, Mouchiroud D, Duret L (февраль 2005 г.). «Связь между экспрессией генов и содержанием GC у млекопитающих: статистическая значимость и биологическая релевантность». Human Molecular Genetics . 14 (3): 421–7. doi : 10.1093/hmg/ddi038 . PMID 15590696.
^ ab Обзор транскрипции. (nd). Получено с https://www.khanacademy.org/science/biology/gene-expression-central-dogma/transcription-of-dna-into-rna/a/overview-of-transcription .
^ Клэнси, Сюзанна (2008). «Перевод: ДНК в мРНК и белок». Scitable: By Nature Education .
^ Plociam (2005-08-08), английский: Структура зрелой эукариотической мРНК. Полностью обработанная мРНК включает 5' кэп, 5' НТО, кодирующую область, 3' НТО и поли(А) хвост. , получено 2019-11-19
^ Shinohara K, Sasaki S, Minoshima M, Bando T, Sugiyama H (2006-02-13). «Алкилирование шаблонной цепи кодирующей области вызывает эффективное подавление генов». Nucleic Acids Research . 34 (4): 1189–95. doi :10.1093/nar/gkl005. PMC 1383623. PMID 16500890 .
^ "Термин онтологии генов алкилирования ДНК (GO:0006305)". www.informatics.jax.org . Получено 30.10.2019 .
^ Shafee T, Lowe R (2017). «Структура гена эукариот и прокариот». WikiJournal of Medicine . 4 (1). doi : 10.15347/wjm/2017.002 .
^ Конарская М.М. (1998). «Распознавание 5'-сайта сплайсинга сплайсосомой». Акта Биохимика Полоника . 45 (4): 869–81. дои : 10.18388/abp.1998_4346 . ПМИД 10397335.
^ Jonsta247 (2013-05-10), английский: Пример молчаливой мутации , получено 2019-11-19{{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ ab Yang, J. (23 марта 2016 г.). Что такое генетические мутации? Получено с https://www.singerinstruments.com/resource/what-are-genetic-mutation/ .
^ abc Что такое мутация гена и как происходят мутации? - Genetics Home Reference - NIH. (nd). Получено с https://ghr.nlm.nih.gov/primer/mutationsanddisorders/genemutation .
^ "Проверка и восстановление ДНК (статья)". Khan Academy . Получено 2023-05-22 .
^ Перето Дж. (2011) Гипотеза колебания (генетика). В: Гарго М. и др. (ред.) Энциклопедия астробиологии. Шпрингер, Берлин, Гейдельберг
^ ab Havrilla, JM, Pedersen, BS, Layer, RM, & Quinlan, AR (2018). Карта ограниченных кодирующих областей в геноме человека. Nature Genetics , 88–95. doi :10.1101/220814
^ Romiguier J, Roux C (2017). «Аналитические смещения, связанные с содержанием GC в молекулярной эволюции». Front Genet . 8 : 16. doi : 10.3389/fgene.2017.00016 . PMC 5309256. PMID 28261263 .
^ Фуруно М., Касукава Т., Сайто Р., Адачи Дж., Сузуки Х., Балдарелли Р. и др. (июнь 2003 г.). «Аннотация CDS в полноразмерной последовательности кДНК». Геномные исследования . 13 (6Б). Лабораторное издательство Колд-Спринг-Харбор: 1478–87. дои : 10.1101/гр.1060303. ПМК 403693 . ПМИД 12819146.
^ Рогозин ИБ, Спиридонов АН, Сорокин АВ, Вольф ЙИ, Иордан ИК, Татусов РЛ, Кунин ЕВ (май 2002). "Очищающий и направленный отбор в перекрывающихся прокариотических генах". Trends in Genetics . 18 (5): 228–32. doi :10.1016/S0168-9525(02)02649-5. PMID 12047938.
^ Chirico N, Vianelli A, Belshaw R (декабрь 2010 г.). «Почему гены перекрываются у вирусов». Труды. Биологические науки . 277 (1701): 3809–17. doi : 10.1098/rspb.2010.1052. PMC 2992710. PMID 20610432.
^ Firth AE, Brown CM (февраль 2005 г.). «Обнаружение перекрывающихся кодирующих последовательностей с помощью попарных выравниваний». Биоинформатика . 21 (3): 282–92. doi : 10.1093/bioinformatics/bti007 . PMID 15347574.
^ Schlub TE, Buchmann JP, Holmes EC (октябрь 2018 г.). Malik H (ред.). «Простой метод обнаружения перекрывающихся генов-кандидатов в вирусах с использованием последовательностей одного генома». Молекулярная биология и эволюция . 35 (10): 2572–2581. doi :10.1093/molbev/msy155. PMC 6188560. PMID 30099499 .