В биологии слово ген имеет два значения. Менделевский ген — это базовая единица наследственности . Молекулярный ген — это последовательность нуклеотидов в ДНК , которая транскрибируется для получения функциональной РНК . Существует два типа молекулярных генов: гены, кодирующие белок, и некодирующие гены. [1] [2] [3] Во время экспрессии гена (синтеза РНК или белка из гена) ДНК сначала копируется в РНК . РНК может быть непосредственно функциональной или быть промежуточной матрицей для синтеза белка.
Передача генов потомству организма является основой наследования фенотипических признаков от одного поколения к другому. Эти гены составляют различные последовательности ДНК, вместе называемые генотипом , который специфичен для каждой конкретной особи в генофонде популяции данного вида . Генотип , наряду с факторами окружающей среды и развития, в конечном итоге определяет фенотип особи.
Большинство биологических признаков возникают под совместным влиянием полигенов (набора различных генов) и взаимодействий генов и окружающей среды . Некоторые генетические признаки видны мгновенно, например, цвет глаз или количество конечностей, другие — нет, например , группа крови , риск определенных заболеваний или тысячи основных биохимических процессов, составляющих жизнь . Ген может приобретать мутации в своей последовательности , что приводит к появлению различных вариантов, известных как аллели , в популяции . Эти аллели кодируют немного отличающиеся версии гена, которые могут вызывать различные фенотипические признаки. [4] Гены развиваются из-за естественного отбора или выживания наиболее приспособленных и генетического дрейфа аллелей.
Существует много различных способов использования термина «ген», основанных на различных аспектах их наследования, отбора, биологической функции или молекулярной структуры, но большинство этих определений делятся на две категории: менделевский ген и молекулярный ген. [1] [5] [6] [7] [8]
Менделевский ген — классический ген генетики, и он относится к любому наследуемому признаку. Это ген, описанный в The Selfish Gene . [9] Более подробное обсуждение этой версии гена можно найти в статьях Genetics и Gene-centered view of evolution .
Молекулярное определение гена чаще используется в биохимии, молекулярной биологии и большей части генетики — ген, который описывается в терминах последовательности ДНК. [1] Существует много различных определений этого гена — некоторые из которых вводят в заблуждение или неверны. [5] [10]
Очень ранние работы в области, которая стала молекулярной генетикой, предложили концепцию, что один ген производит один белок (первоначально «один ген — один фермент»). [11] [12] Однако гены, которые производят репрессорные РНК, были предложены в 1950-х годах [13] , а к 1960-м годам учебники использовали определения молекулярных генов, которые включали те, которые указывали на функциональные молекулы РНК, такие как рибосомальная РНК и тРНК (некодирующие гены), а также гены, кодирующие белок. [14]
Эта идея двух видов генов все еще является частью определения гена в большинстве учебников. Например,
Основная функция генома — производить молекулы РНК. Выбранные части нуклеотидной последовательности ДНК копируются в соответствующую нуклеотидную последовательность РНК, которая либо кодирует белок (если это мРНК), либо образует «структурную» РНК, такую как молекула транспортной РНК (тРНК) или рибосомальной РНК (рРНК). Каждый участок спирали ДНК, который производит функциональную молекулу РНК, представляет собой ген. [15]
Мы определяем ген как последовательность ДНК, которая транскрибируется. Это определение включает гены, которые не кодируют белки (не все транскрипты являются РНК-мессенджерами). Определение обычно исключает области генома, которые контролируют транскрипцию, но сами не транскрибируются. Мы столкнемся с некоторыми исключениями из нашего определения гена - удивительно, но нет определения, которое было бы полностью удовлетворительным. [16]
Ген — это последовательность ДНК, которая кодирует диффундирующий продукт. Этот продукт может быть белком (как в случае большинства генов) или РНК (как в случае генов, которые кодируют тРНК и рРНК). Важнейшей особенностью является то, что продукт диффундирует от своего места синтеза, чтобы действовать в другом месте. [17]
Важными частями таких определений являются: (1) то, что ген соответствует единице транскрипции; (2) что гены производят как мРНК, так и некодирующие РНК; и (3) регуляторные последовательности контролируют экспрессию гена, но не являются частью самого гена. Однако есть еще одна важная часть определения, и она подчеркивается в книге Костаса Кампуракиса Making Sense of Genes .
Поэтому в этой книге я буду рассматривать гены как последовательности ДНК, кодирующие информацию для функциональных продуктов, будь то белки или молекулы РНК. Под «кодирующей информацией» я подразумеваю, что последовательность ДНК используется в качестве шаблона для производства молекулы РНК или белка, который выполняет некоторую функцию. [5]
Акцент на функции имеет важное значение, поскольку существуют участки ДНК, которые производят нефункциональные транскрипты, и они не квалифицируются как гены. К ним относятся очевидные примеры, такие как транскрибированные псевдогены, а также менее очевидные примеры, такие как мусорная РНК, произведенная как шум из-за ошибок транскрипции. Чтобы квалифицироваться как настоящий ген, согласно этому определению, нужно доказать, что транскрипт имеет биологическую функцию. [5]
Ранние предположения о размере типичного гена основывались на генетическом картировании высокого разрешения и на размере белков и молекул РНК. Длина в 1500 пар оснований казалась разумной в то время (1965). [14] Это основывалось на идее, что ген — это ДНК, которая напрямую отвечает за производство функционального продукта. Открытие интронов в 1970-х годах означало, что многие эукариотические гены были намного больше, чем предполагал бы размер функционального продукта. Типичные гены млекопитающих, кодирующие белок, например, имеют длину около 62 000 пар оснований (транскрибируемая область), и поскольку их около 20 000, они занимают около 35–40% генома млекопитающих (включая геном человека). [18] [19] [20]
Несмотря на то, что и гены, кодирующие белок, и некодирующие гены известны уже более 50 лет, все еще существует ряд учебников, веб-сайтов и научных публикаций, которые определяют ген как последовательность ДНК, которая определяет белок. Другими словами, определение ограничено генами, кодирующими белок. Вот пример из недавней статьи в American Scientist.
... чтобы по-настоящему оценить потенциальное значение генов de novo, мы опирались на строгое определение слова «ген», с которым согласится почти каждый эксперт. Во-первых, для того, чтобы нуклеотидная последовательность считалась настоящим геном, должна присутствовать открытая рамка считывания (ORF). ORF можно рассматривать как «сам ген»; он начинается с начальной отметки, общей для каждого гена, и заканчивается одним из трех возможных сигналов финишной черты. Один из ключевых ферментов в этом процессе, РНК-полимераза, мчится по цепи ДНК, как поезд по монорельсу, транскрибируя ее в форму информационной РНК. Этот момент подводит нас ко второму важному критерию: истинный ген — это тот, который и транскрибируется, и транслируется. То есть истинный ген сначала используется в качестве шаблона для создания временной информационной РНК, которая затем транслируется в белок. [21]
Это ограниченное определение настолько распространено, что породило множество недавних статей, критикующих это «стандартное определение» и призывающих к новому расширенному определению, включающему некодирующие гены. Однако некоторые современные авторы до сих пор не признают некодирующие гены, хотя это так называемое «новое» определение было признано более полувека назад. [22] [23] [24]
Хотя некоторые определения могут быть более широко применимы, чем другие, фундаментальная сложность биологии означает, что ни одно определение гена не может полностью охватить все аспекты. Не все геномы являются ДНК (например, РНК-вирусы ), [25] бактериальные опероны представляют собой множественные кодирующие белок области, транскрибируемые в одну большую мРНК, альтернативный сплайсинг позволяет одной геномной области кодировать множественные продукты округа, а транссплайсинг объединяет мРНК из более короткой кодирующей последовательности по всему геному. [26] [27] [28] Поскольку молекулярные определения исключают такие элементы, как интроны, промоторы и другие регуляторные области , они вместо этого считаются «связанными» с геном и влияющими на его функцию.
Иногда используется еще более широкое рабочее определение, охватывающее сложность этих разнообразных явлений, где ген определяется как объединение геномных последовательностей, кодирующих согласованный набор потенциально перекрывающихся функциональных продуктов. [29] Это определение классифицирует гены по их функциональным продуктам (белкам или РНК), а не по их конкретным локусам ДНК, при этом регуляторные элементы классифицируются как области, связанные с генами . [29]
Существование дискретных наследуемых единиц впервые предположил Грегор Мендель (1822–1884). [30] С 1857 по 1864 год в Брно , Австрийская империя (сегодня Чешская Республика), он изучал закономерности наследования у 8000 обычных съедобных растений гороха , отслеживая различные признаки от родителя к потомству. Он описал их математически как 2 n комбинаций, где n — число различающихся характеристик в исходных горошинах. Хотя он не использовал термин ген , он объяснил свои результаты в терминах дискретных наследуемых единиц, которые дают начало наблюдаемым физическим характеристикам. Это описание предвосхитило различие Вильгельма Иоганнасена между генотипом (генетическим материалом организма) и фенотипом (наблюдаемыми признаками этого организма). Мендель также был первым, кто продемонстрировал независимый ассортимент , различие между доминантными и рецессивными признаками, различие между гетерозиготой и гомозиготой и явление прерывистого наследования.
До работы Менделя доминирующей теорией наследственности была теория смешанного наследования , [31] которая предполагала, что каждый родитель вносил жидкости в процесс оплодотворения и что черты родителей смешивались и смешивались, чтобы произвести потомство. Чарльз Дарвин разработал теорию наследования, которую он назвал пангенезисом , от греческого pan («все, целое») и genesis («рождение») / genos («происхождение»). [32] [33] Дарвин использовал термин геммула для описания гипотетических частиц, которые смешивались во время размножения.
Работа Менделя осталась в значительной степени незамеченной после своей первой публикации в 1866 году, но была вновь открыта в конце 19 века Гуго де Фризом , Карлом Корренсом и Эрихом фон Чермаком , которые (утверждали, что) пришли к аналогичным выводам в своих собственных исследованиях. [34] В частности, в 1889 году Гуго де Фриз опубликовал свою книгу «Внутриклеточный пангенезис» , [35] в которой он постулировал, что разные признаки имеют индивидуальных наследственных носителей и что наследование определенных признаков в организмах происходит в виде частиц. Де Фриз назвал эти единицы «пангенами» ( Pangens на немецком языке), в честь теории пангенезиса Дарвина 1868 года.
Двадцать лет спустя, в 1909 году, Вильгельм Иогансен ввел термин «ген» (вдохновленный древнегреческим : γόνος, gonos , что означает потомство и продолжение рода) [36] , а в 1906 году Уильям Бейтсон — термин « генетика » [37] [29], в то время как Эдуард Страсбургер , среди прочих, все еще использовал термин «панген» для обозначения фундаментальной физической и функциональной единицы наследственности. [35] : Предисловие переводчика, viii
Прогресс в понимании генов и наследования продолжался на протяжении всего 20-го века. Эксперименты 1940-х и 1950-х годов показали, что дезоксирибонуклеиновая кислота (ДНК) является молекулярным хранилищем генетической информации. [38] [39] Структура ДНК была изучена Розалинд Франклин и Морисом Уилкинсом с помощью рентгеновской кристаллографии , что привело Джеймса Д. Уотсона и Фрэнсиса Крика к публикации модели двухцепочечной молекулы ДНК, парные нуклеотидные основания которой указали на убедительную гипотезу о механизме генетической репликации. [40] [41]
В начале 1950-х годов преобладающим мнением было то, что гены в хромосоме действуют как дискретные сущности, организованные как бусины на нитке. Эксперименты Бензера с использованием мутантов , дефектных в области rII бактериофага T4 (1955–1959), показали, что отдельные гены имеют простую линейную структуру и, вероятно, эквивалентны линейному участку ДНК. [42] [43]
В совокупности этот корпус исследований установил центральную догму молекулярной биологии , которая гласит, что белки транслируются с РНК , которая транскрибируется с ДНК . С тех пор было показано, что эта догма имеет исключения, такие как обратная транскрипция у ретровирусов . Современное изучение генетики на уровне ДНК известно как молекулярная генетика .
В 1972 году Уолтер Фирс и его команда первыми определили последовательность гена: белка оболочки бактериофага MS2 . [44] Последующая разработка в 1977 году Фредериком Сэнгером метода секвенирования ДНК с обрывом цепи повысила эффективность секвенирования и превратила его в рутинный лабораторный инструмент. [45] Автоматизированная версия метода Сэнгера использовалась на ранних этапах проекта «Геном человека» . [46]
Теории, разработанные в начале 20-го века для интеграции менделевской генетики с дарвиновской эволюцией, называются современным синтезом , термин, введенный Джулианом Хаксли . [47]
Этот взгляд на эволюцию подчеркивался геноцентрическим взглядом Джорджа К. Уильямса на эволюцию . Он предположил, что менделевский ген является единицей естественного отбора с определением: «то, что разделяется и рекомбинирует с заметной частотой». [48] : 24 Связанные с этим идеи, подчеркивающие центральность менделевских генов и важность естественного отбора в эволюции, были популяризированы Ричардом Докинзом . [9] [49]
Развитие нейтральной теории эволюции в конце 1960-х годов привело к признанию того, что случайный генетический дрейф является основным игроком в эволюции и что нейтральная теория должна быть нулевой гипотезой молекулярной эволюции. [50] Это привело к построению филогенетических деревьев и разработке молекулярных часов , которые являются основой всех методов датирования с использованием последовательностей ДНК. Эти методы не ограничиваются молекулярными последовательностями генов, но могут использоваться для всех сегментов ДНК в геноме.
Подавляющее большинство организмов кодируют свои гены в длинных цепях ДНК (дезоксирибонуклеиновой кислоты). ДНК состоит из цепи , состоящей из четырех типов нуклеотидных субъединиц, каждая из которых состоит из: пятиуглеродного сахара ( 2-дезоксирибоза ), фосфатной группы и одного из четырех оснований : аденина , цитозина , гуанина и тимина . [51] : 2.1
Две цепи ДНК скручиваются друг с другом, образуя двойную спираль ДНК с фосфатно-сахарной основой, закрученной по спирали снаружи, и основаниями, направленными внутрь, с адениновым основанием, спаривающимся с тимином, и гуанином с цитозином. Специфичность спаривания оснований возникает из-за того, что аденин и тимин выстраиваются в ряд, образуя две водородные связи , тогда как цитозин и гуанин образуют три водородные связи. Следовательно, две нити в двойной спирали должны быть комплементарными , с их последовательностью оснований, совпадающей таким образом, что аденины одной нити спариваются с тиминами другой нити и так далее. [51] : 4.1
Из-за химического состава остатков пентозы оснований, нити ДНК имеют направленность. Один конец полимера ДНК содержит открытую гидроксильную группу на дезоксирибозе ; это известно как 3'-конец молекулы. Другой конец содержит открытую фосфатную группу; это 5'-конец . Две нити двойной спирали идут в противоположных направлениях. Синтез нуклеиновых кислот, включая репликацию и транскрипцию ДНК, происходит в направлении 5'→3', поскольку новые нуклеотиды добавляются посредством реакции дегидратации , которая использует открытый 3'-гидроксил в качестве нуклеофила . [52] : 27.2
Экспрессия генов, закодированных в ДНК, начинается с транскрипции гена в РНК , второй тип нуклеиновой кислоты, которая очень похожа на ДНК, но мономеры которой содержат сахар рибозу вместо дезоксирибозы . РНК также содержит основание урацил вместо тимина . Молекулы РНК менее стабильны, чем ДНК, и обычно одноцепочечные. Гены, кодирующие белки, состоят из серии трехнуклеотидных последовательностей , называемых кодонами , которые служат «словами» в генетическом «языке». Генетический код определяет соответствие во время трансляции белка между кодонами и аминокислотами . Генетический код почти одинаков для всех известных организмов. [51] : 4.1
Полный набор генов в организме или клетке называется геномом , который может храниться на одной или нескольких хромосомах . Хромосома состоит из одной очень длинной спирали ДНК, на которой закодированы тысячи генов. [51] : 4.2 Область хромосомы, в которой расположен определенный ген, называется ее локусом . Каждый локус содержит один аллель гена; однако члены популяции могут иметь разные аллели в локусе, каждый с немного отличающейся последовательностью генов.
Большинство эукариотических генов хранятся на наборе больших линейных хромосом. Хромосомы упакованы внутри ядра в комплексе с запасными белками, называемыми гистонами , образуя единицу, называемую нуклеосомой . ДНК, упакованная и конденсированная таким образом, называется хроматином . [51] : 4.2 Способ, которым ДНК хранится на гистонах, а также химические модификации самого гистона, регулируют, доступен ли определенный участок ДНК для экспрессии генов . В дополнение к генам, эукариотические хромосомы содержат последовательности, участвующие в обеспечении того, чтобы ДНК копировалась без деградации концевых участков и сортировалась в дочерние клетки во время деления клетки: точки начала репликации , теломеры и центромера . [51] : 4.2 Точки начала репликации — это области последовательности, где инициируется репликация ДНК для создания двух копий хромосомы. Теломеры — это длинные участки повторяющихся последовательностей, которые закрывают концы линейных хромосом и предотвращают деградацию кодирующих и регуляторных участков во время репликации ДНК . Длина теломер уменьшается каждый раз, когда геном реплицируется, и участвует в процессе старения . [54] Центромера необходима для связывания веретенных волокон , чтобы разделить сестринские хроматиды на дочерние клетки во время деления клетки . [51] : 18.2
Прокариоты ( бактерии и археи ) обычно хранят свои геномы на одной большой кольцевой хромосоме . Аналогично, некоторые эукариотические органеллы содержат остаточную кольцевую хромосому с небольшим количеством генов. [51] : 14.4 Прокариоты иногда дополняют свою хромосому дополнительными небольшими кругами ДНК, называемыми плазмидами , которые обычно кодируют только несколько генов и могут передаваться между особями. Например, гены устойчивости к антибиотикам обычно кодируются на бактериальных плазмидах и могут передаваться между отдельными клетками, даже принадлежащими к разным видам, посредством горизонтального переноса генов . [55]
В то время как хромосомы прокариот относительно плотно заселены генами, хромосомы эукариот часто содержат области ДНК, которые не выполняют никакой очевидной функции. Простые одноклеточные эукариоты имеют относительно небольшое количество такой ДНК, тогда как геномы сложных многоклеточных организмов , включая людей, содержат абсолютное большинство ДНК без идентифицированной функции. [56] Эту ДНК часто называют « мусорной ДНК ». Однако более поздние анализы показывают, что, хотя кодирующая белок ДНК составляет всего 2% генома человека , около 80% оснований в геноме могут быть выражены, поэтому термин «мусорная ДНК» может быть неправильным. [26]
Структура гена, кодирующего белок, состоит из множества элементов, из которых фактическая последовательность кодирования белка часто является лишь небольшой частью. К ним относятся интроны и нетранслируемые области зрелой мРНК. Некодирующие гены также могут содержать интроны, которые удаляются во время процессинга для получения зрелой функциональной РНК.
Все гены связаны с регуляторными последовательностями , которые требуются для их экспрессии. Во-первых, генам требуется промоторная последовательность. Промотор распознается и связывается факторами транскрипции , которые привлекают и помогают РНК-полимеразе связываться с областью для инициирования транскрипции. [51] : 7.1 Распознавание обычно происходит как консенсусная последовательность, такая как TATA-бокс . Ген может иметь более одного промотора, что приводит к образованию матричных РНК ( мРНК ), которые различаются по тому, насколько далеко они простираются на 5'-конце. [58] Высокотранскрибируемые гены имеют «сильные» промоторные последовательности, которые образуют сильные ассоциации с факторами транскрипции, тем самым инициируя транскрипцию с высокой скоростью. Другие гены имеют «слабые» промоторы, которые образуют слабые ассоциации с факторами транскрипции и инициируют транскрипцию реже. [51] : 7.2 Эукариотические промоторные области гораздо сложнее и их труднее идентифицировать, чем прокариотические промоторы. [51] : 7.3
Кроме того, гены могут иметь регуляторные области на много килобаз выше или ниже гена, которые изменяют экспрессию. Они действуют, связываясь с факторами транскрипции, которые затем заставляют ДНК образовывать петлю, так что регуляторная последовательность (и связанный фактор транскрипции) становятся близко к сайту связывания РНК-полимеразы. [59] Например, энхансеры увеличивают транскрипцию, связывая активаторный белок, который затем помогает рекрутировать РНК-полимеразу к промотору; наоборот, сайленсеры связывают репрессорные белки и делают ДНК менее доступной для РНК-полимеразы. [60]
Зрелая информационная РНК, полученная из генов, кодирующих белки, содержит нетранслируемые области на обоих концах, которые содержат сайты связывания для рибосом , РНК-связывающих белков , miRNA , а также терминатора , стартового и стоп-кодона . [61] Кроме того, большинство эукариотических открытых рамок считывания содержат нетранслируемые интроны , которые удаляются, и экзоны , которые соединяются вместе в процессе, известном как сплайсинг РНК . Наконец, концы генных транскриптов определяются сайтами расщепления и полиаденилирования (CPA) , где вновь произведенная пре-мРНК расщепляется, а строка из ~200 аденозинмонофосфатов добавляется на 3'-конце. Поли(А) -хвост защищает зрелую мРНК от деградации и имеет другие функции, влияя на трансляцию, локализацию и транспорт транскрипта из ядра. Сплайсинг, за которым следует CPA, генерирует конечную зрелую мРНК , которая кодирует белок или продукт РНК. [62]
Многие некодирующие гены у эукариот имеют различные механизмы терминации транскрипции и не имеют поли(А)-хвостов.
Многие прокариотические гены организованы в опероны с несколькими последовательностями, кодирующими белок, которые транскрибируются как единое целое. [63] [64] Гены в опероне транскрибируются как непрерывная информационная РНК , называемая полицистронной мРНК . Термин цистрон в этом контексте эквивалентен гену. Транскрипция мРНК оперона часто контролируется репрессором , который может находиться в активном или неактивном состоянии в зависимости от присутствия определенных метаболитов. [65] Когда репрессор активен, он связывается с последовательностью ДНК в начале оперона, называемой операторной областью , и подавляет транскрипцию оперона ; когда репрессор неактивен, может происходить транскрипция оперона (см., например, оперон Lac ). Продукты генов оперона обычно имеют связанные функции и участвуют в одной и той же регуляторной сети . [51] : 7.3
Хотя многие гены имеют простую структуру, как и большая часть биологии, другие могут быть довольно сложными или представлять собой необычные пограничные случаи. Эукариотические гены часто имеют интроны, которые намного больше своих экзонов, [66] [67] и эти интроны могут даже иметь другие гены, вложенные в них . [68] Ассоциированные энхансеры могут находиться на расстоянии многих килобаз или даже на совершенно разных хромосомах, функционирующих посредством физического контакта между двумя хромосомами. [69] [70] Один ген может кодировать несколько различных функциональных продуктов с помощью альтернативного сплайсинга , и наоборот, ген может быть разделен между хромосомами, но эти транскрипты объединяются обратно в функциональную последовательность с помощью транссплайсинга . [71] Также возможно, что перекрывающиеся гены разделяют часть своей последовательности ДНК, либо на противоположных цепях, либо на одной и той же цепи (в другой рамке считывания или даже в одной и той же рамке считывания). [72]
Во всех организмах для считывания информации, закодированной в ДНК гена, и получения белка, который он определяет, требуются два шага. Во-первых, ДНК гена транскрибируется в информационную РНК ( мРНК ). [51] : 6.1 Во-вторых, эта мРНК транслируется в белок. [51] : 6.2 Гены, кодирующие РНК, все равно должны пройти первый шаг, но не транслируются в белок. [73] Процесс получения биологически функциональной молекулы РНК или белка называется экспрессией гена , а полученная молекула называется продуктом гена .
Нуклеотидная последовательность ДНК гена определяет аминокислотную последовательность белка через генетический код . Наборы из трех нуклеотидов, известные как кодоны , соответствуют каждой определенной аминокислоте. [51] : 6 Принцип, согласно которому три последовательных основания ДНК кодируют каждую аминокислоту, был продемонстрирован в 1961 году с использованием мутаций со сдвигом рамки считывания в гене rIIB бактериофага T4 [74] (см. эксперимент Крика, Бреннера и др. ).
Кроме того, « старт-кодон » и три « стоп-кодона » указывают на начало и конец области кодирования белка . Существует 64 возможных кодона (четыре возможных нуклеотида в каждой из трех позиций, следовательно, 43 возможных кодона) и только 20 стандартных аминокислот; следовательно, код избыточный, и несколько кодонов могут указывать на одну и ту же аминокислоту. Соответствие между кодонами и аминокислотами почти универсально среди всех известных живых организмов. [75]
Транскрипция производит одноцепочечную молекулу РНК , известную как информационная РНК , нуклеотидная последовательность которой комплементарна ДНК, с которой она была транскрибирована. [51] : 6.1 мРНК действует как промежуточное звено между геном ДНК и ее конечным белковым продуктом. ДНК гена используется в качестве матрицы для генерации комплементарной мРНК. мРНК соответствует последовательности кодирующей цепи ДНК гена , поскольку она синтезируется как дополнение к цепи матрицы . Транскрипция выполняется ферментом, называемым РНК -полимеразой , который считывает цепь матрицы в направлении от 3' к 5' и синтезирует РНК от 5' к 3' . Чтобы инициировать транскрипцию, полимераза сначала распознает и связывает промоторную область гена. Таким образом, основным механизмом регуляции гена является блокирование или секвестрация промоторной области либо путем прочного связывания репрессорными молекулами, которые физически блокируют полимеразу, либо путем организации ДНК таким образом, чтобы промоторная область была недоступна. [51] : 7
У прокариот транскрипция происходит в цитоплазме ; для очень длинных транскриптов трансляция может начинаться на 5'-конце РНК, в то время как 3'-конец все еще транскрибируется. У эукариот транскрипция происходит в ядре, где хранится ДНК клетки. Молекула РНК, продуцируемая полимеразой, известна как первичный транскрипт и подвергается посттранскрипционным модификациям перед экспортом в цитоплазму для трансляции. Одной из выполняемых модификаций является сплайсинг интронов , которые представляют собой последовательности в транскрибируемой области, которые не кодируют белок. Альтернативные механизмы сплайсинга могут приводить к зрелым транскриптам из одного и того же гена, имеющим разные последовательности и, таким образом, кодирующим разные белки. Это основная форма регуляции в эукариотических клетках, а также встречается у некоторых прокариот. [51] : 7.5 [76]
Трансляция — это процесс, при котором зрелая молекула мРНК используется в качестве матрицы для синтеза нового белка . [51] : 6.2 Трансляция осуществляется рибосомами , большими комплексами РНК и белка, ответственными за проведение химических реакций по добавлению новых аминокислот к растущей полипептидной цепи путем образования пептидных связей . Генетический код считывается по три нуклеотида за раз, в единицах, называемых кодонами , посредством взаимодействий со специализированными молекулами РНК, называемыми транспортной РНК (тРНК). Каждая тРНК имеет три неспаренных основания, известных как антикодон , которые комплементарны кодону, который она считывает на мРНК. ТРНК также ковалентно присоединена к аминокислоте, указанной комплементарным кодоном. Когда тРНК связывается со своим комплементарным кодоном в цепи мРНК, рибосома присоединяет свой аминокислотный груз к новой полипептидной цепи, которая синтезируется от аминоконца к карбоксильному концу . Во время и после синтеза большинство новых белков должны сворачиваться в свою активную трехмерную структуру, прежде чем они смогут выполнять свои клеточные функции. [51] : 3
Гены регулируются таким образом, что они экспрессируются только тогда, когда продукт необходим, поскольку экспрессия опирается на ограниченные ресурсы. [51] : 7 Клетка регулирует свою экспрессию генов в зависимости от своей внешней среды (например, доступных питательных веществ , температуры и других стрессов ), своей внутренней среды (например, цикла деления клеток , метаболизма , статуса инфекции ) и своей конкретной роли в многоклеточном организме. Экспрессия генов может регулироваться на любом этапе: от инициации транскрипции до процессинга РНК и посттрансляционной модификации белка. Регуляция генов метаболизма лактозы в E. coli ( lac оперон ) была первым таким механизмом, описанным в 1961 году. [77]
Типичный ген, кодирующий белок, сначала копируется в РНК в качестве промежуточного продукта при производстве конечного белкового продукта. [51] : 6.1 В других случаях молекулы РНК являются фактическими функциональными продуктами, как в синтезе рибосомальной РНК и транспортной РНК . Некоторые РНК, известные как рибозимы, способны выполнять ферментативную функцию , в то время как другие, такие как микроРНК и рибопереключатели, выполняют регуляторные функции. Последовательности ДНК , с которых транскрибируются такие РНК, известны как некодирующие гены РНК . [73]
Некоторые вирусы хранят весь свой геном в форме РНК и вообще не содержат ДНК. [78] [79] Поскольку они используют РНК для хранения генов, их клеточные хозяева могут синтезировать их белки сразу после заражения и без задержки в ожидании транскрипции. [80] С другой стороны, РНК- ретровирусы , такие как ВИЧ , требуют обратной транскрипции своего генома из РНК в ДНК, прежде чем их белки смогут быть синтезированы.
Организмы наследуют свои гены от своих родителей. Бесполые организмы просто наследуют полную копию генома своих родителей. Половые организмы имеют две копии каждой хромосомы, потому что они наследуют один полный набор от каждого родителя. [51] : 1
Согласно менделевскому наследованию , вариации фенотипа организма (наблюдаемые физические и поведенческие характеристики) частично обусловлены вариациями его генотипа (определенный набор генов). Каждый ген определяет определенный признак с различной последовательностью гена ( аллели ), что приводит к различным фенотипам. Большинство эукариотических организмов (например, горох, над которым работал Мендель) имеют два аллеля для каждого признака, по одному унаследованному от каждого родителя. [51] : 20
Аллели в локусе могут быть доминантными или рецессивными ; доминантные аллели дают начало соответствующим им фенотипам при сочетании с любым другим аллелем того же признака, тогда как рецессивные аллели дают начало соответствующему им фенотипу только при сочетании с другой копией того же аллеля. Если вы знаете генотипы организмов, вы можете определить, какие аллели являются доминантными, а какие рецессивными. Например, если аллель, определяющий высокие стебли у растений гороха, доминирует над аллелем, определяющим короткие стебли, то растения гороха, которые наследуют один высокий аллель от одного родителя и один короткий аллель от другого родителя, также будут иметь высокие стебли. Работа Менделя продемонстрировала, что аллели сортируются независимо при производстве гамет или зародышевых клеток , обеспечивая изменчивость в следующем поколении. Хотя менделевское наследование остается хорошей моделью для многих признаков, определяемых отдельными генами (включая ряд известных генетических нарушений ), оно не включает физические процессы репликации ДНК и деления клеток. [81] [82]
Рост, развитие и воспроизводство организмов зависят от деления клеток ; процесса, посредством которого одна клетка делится на две обычно идентичные дочерние клетки . Для этого сначала требуется сделать дубликат копии каждого гена в геноме в процессе, называемом репликацией ДНК . [51] : 5.2 Копии производятся специализированными ферментами , известными как ДНК-полимеразы , которые «считывают» одну нить двойной спирали ДНК, известную как шаблонная нить, и синтезируют новую комплементарную нить. Поскольку двойная спираль ДНК удерживается вместе спариванием оснований , последовательность одной нити полностью определяет последовательность ее комплементарной; следовательно, только одна нить должна быть прочитана ферментом, чтобы создать точную копию. Процесс репликации ДНК является полуконсервативным ; то есть копия генома, унаследованная каждой дочерней клеткой, содержит одну исходную и одну вновь синтезированную нить ДНК. [51] : 5.2
Скорость репликации ДНК в живых клетках была впервые измерена как скорость удлинения ДНК фага Т4 в инфицированных фагом E. coli и оказалась впечатляюще быстрой. [83] В период экспоненциального увеличения ДНК при 37 °C скорость удлинения составляла 749 нуклеотидов в секунду.
После репликации ДНК клетка должна физически разделить две копии генома и разделить на две отдельные мембраносвязанные клетки. [51] : 18.2 У прокариот ( бактерий и архей ) это обычно происходит посредством относительно простого процесса, называемого бинарным делением , в котором каждый кольцевой геном прикрепляется к клеточной мембране и разделяется на дочерние клетки, когда мембрана инвагинирует, чтобы разделить цитоплазму на две мембраносвязанные части. Бинарное деление происходит чрезвычайно быстро по сравнению со скоростью деления клеток у эукариот . Деление эукариотических клеток является более сложным процессом, известным как клеточный цикл ; репликация ДНК происходит во время фазы этого цикла, известной как S-фаза , тогда как процесс разделения хромосом и расщепления цитоплазмы происходит во время M-фазы . [51] : 18.1
Дублирование и передача генетического материала от одного поколения клеток к другому является основой молекулярного наследования и связью между классическими и молекулярными картинами генов. Организмы наследуют характеристики своих родителей, потому что клетки потомства содержат копии генов в клетках своих родителей. У организмов, размножающихся бесполым путем , потомство будет генетической копией или клоном родительского организма. У организмов, размножающихся половым путем , специализированная форма клеточного деления, называемая мейозом, производит клетки, называемые гаметами или зародышевыми клетками , которые являются гаплоидными или содержат только одну копию каждого гена. [51] : 20.2 Гаметы, производимые самками, называются яйцами или яйцеклетками, а производимые самцами, называются сперматозоидами . Две гаметы сливаются, образуя диплоидную оплодотворенную яйцеклетку , одну клетку, которая имеет два набора генов, с одной копией каждого гена от матери и одной от отца. [51] : 20
В процессе мейотического деления клеток иногда может происходить событие, называемое генетической рекомбинацией или кроссинговером , при котором длина ДНК на одной хроматиде меняется на длину ДНК на соответствующей гомологичной не сестринской хроматиде. Это может привести к перераспределению в противном случае связанных аллелей. [51] : 5.5 Менделевский принцип независимого распределения утверждает, что каждый из двух родительских генов для каждого признака будет независимо сортироваться в гаметах; какой аллель организм унаследует для одного признака, не связано с тем, какой аллель он унаследует для другого признака. Это фактически верно только для генов, которые не находятся на одной хромосоме или расположены очень далеко друг от друга на одной хромосоме. Чем ближе два гена лежат на одной хромосоме, тем теснее они будут связаны в гаметах и тем чаще они будут появляться вместе (известно как генетическое сцепление ). [84] Гены, которые находятся очень близко, по сути, никогда не разделяются, потому что крайне маловероятно, что между ними возникнет точка кроссинговера. [84]
Репликация ДНК по большей части чрезвычайно точна, однако ошибки ( мутации ) случаются. [51] : 7,6 Частота ошибок в эукариотических клетках может составлять всего 10−8 на нуклеотид на репликацию, [85] [86] тогда как для некоторых РНК-вирусов она может достигать 10−3 . [ 87] Это означает, что каждое поколение, каждый человеческий геном накапливает около 30 новых мутаций. [88] Небольшие мутации могут быть вызваны репликацией ДНК и последствиями повреждения ДНК и включают точечные мутации, при которых изменяется одно основание, и мутации со сдвигом рамки считывания, при которых вставляется или удаляется одно основание. Любая из этих мутаций может изменить ген миссенсом (изменить кодон для кодирования другой аминокислоты) или нонсенсом (преждевременный стоп-кодон ). [89] Более крупные мутации могут быть вызваны ошибками в рекомбинации, вызывающими хромосомные аномалии, включая дупликацию , делецию, перестройку или инверсию больших участков хромосомы. Кроме того, механизмы репарации ДНК могут вносить мутационные ошибки при восстановлении физического повреждения молекулы. Восстановление, даже с мутацией, важнее для выживания, чем восстановление точной копии, например, при восстановлении двухцепочечных разрывов . [51] : 5.4
Когда в популяции вида присутствуют несколько различных аллелей гена, это называется полиморфным . Большинство различных аллелей функционально эквивалентны, однако некоторые аллели могут давать начало различным фенотипическим признакам . Наиболее распространенный аллель гена называется диким типом , а редкие аллели называются мутантами . Генетическая изменчивость относительных частот различных аллелей в популяции обусловлена как естественным отбором , так и генетическим дрейфом . [90] Аллель дикого типа не обязательно является предком менее распространенных аллелей и не обязательно более приспособленным .
Большинство мутаций в генах нейтральны , не оказывая никакого влияния на фенотип организма ( молчаливые мутации ). Некоторые мутации не изменяют аминокислотную последовательность, поскольку несколько кодонов кодируют одну и ту же аминокислоту ( синонимичные мутации ). Другие мутации могут быть нейтральными, если они приводят к изменениям аминокислотной последовательности, но белок по-прежнему функционирует аналогично с новой аминокислотой (например, консервативные мутации ). Однако многие мутации вредны или даже смертельны и удаляются из популяций естественным отбором. Генетические нарушения являются результатом вредных мутаций и могут быть вызваны спонтанной мутацией у пораженной особи или могут быть унаследованы. Наконец, небольшая часть мутаций полезна , улучшает приспособленность организма и чрезвычайно важна для эволюции, поскольку их направленный отбор приводит к адаптивной эволюции . [51] : 7.6
Связь между генами можно измерить, сравнивая последовательности их ДНК. Если уровень сходства превышает минимальное значение, можно сделать вывод, что гены произошли от общего предка; они гомологичны . [91] [92] Гены, которые связаны прямым происхождением от общего предка, являются ортологичными генами — они обычно находятся в одном и том же локусе у разных видов. Гены, которые связаны в результате события дупликации гена, являются парологичными генами. [93] [94]
Часто предполагается, что функции ортологичных генов более схожи, чем функции паралогичных генов, хотя разница минимальна. [95] [96]
Наиболее распространенным источником новых генов в эукариотических линиях является дупликация генов , которая создает вариацию числа копий существующего гена в геноме. [97] [98] Полученные гены (паралоги) могут затем расходиться по последовательности и по функции. Наборы генов, сформированные таким образом, составляют семейство генов . Дупликации и потери генов в пределах семейства обычны и представляют собой основной источник эволюционного биоразнообразия . [99] Иногда дупликация генов может привести к нефункциональной копии гена, или функциональная копия может подвергаться мутациям, которые приводят к потере функции; такие нефункциональные гены называются псевдогенами . [51] : 7.6
Гены-сироты , последовательность которых не показывает сходства с существующими генами, встречаются реже, чем дубликаты генов. Геном человека содержит приблизительно от 18 [100] до 60 [101] генов без идентифицируемых гомологов вне человека. Гены-сироты возникают в основном либо из-за возникновения de novo из ранее некодирующей последовательности , либо из-за дупликации гена, за которой следует такое быстрое изменение последовательности, что исходная связь становится необнаружимой. [102] Гены de novo обычно короче и проще по структуре, чем большинство эукариотических генов, с небольшим количеством интронов, если таковые вообще имеются. [97] В течение длительных эволюционных периодов рождение генов de novo может быть ответственно за значительную часть таксономически ограниченных семейств генов. [103]
Горизонтальный перенос генов относится к переносу генетического материала посредством механизма, отличного от воспроизводства . Этот механизм является общим источником новых генов у прокариот , иногда считается, что он вносит больший вклад в генетическую изменчивость, чем дупликация генов. [104] Это распространенный способ распространения устойчивости к антибиотикам , вирулентности и адаптивных метаболических функций. [55] [105] Хотя горизонтальный перенос генов редок у эукариот, были выявлены вероятные примеры геномов протистов и водорослей , содержащих гены бактериального происхождения. [106] [107]
Геном представляет собой полный генетический материал организма и включает в себя как гены, так и некодирующие последовательности . [108] Эукариотические гены можно аннотировать с помощью FINDER. [109]
Размер генома и количество генов, которые он кодирует, сильно различаются у разных организмов. Самые маленькие геномы встречаются у вирусов [ 118] и вироидов (которые действуют как один некодирующий ген РНК). [119] Наоборот, у растений могут быть чрезвычайно большие геномы [120] , а у риса содержится >46 000 генов, кодирующих белки. [114] Общее количество генов, кодирующих белки ( протеом Земли ), оценивается в 5 миллионов последовательностей. [121]
Хотя число пар оснований ДНК в геноме человека известно с 1950-х годов, предполагаемое число генов со временем изменилось, поскольку определения генов и методы их обнаружения были уточнены. Первоначальные теоретические предсказания числа генов человека в 1960-х и 1970-х годах основывались на оценках нагрузки мутаций и числах мРНК, и эти оценки, как правило, составляли около 30 000 генов, кодирующих белки. [122] [123] [124] В 1990-х годах были предположительные оценки до 100 000 генов, и ранние данные об обнаружении мРНК ( теги экспрессируемых последовательностей ) предполагали больше, чем традиционное значение в 30 000 генов, о котором сообщалось в учебниках в 1980-х годах. [125]
Первоначальные черновые последовательности генома человека подтвердили более ранние прогнозы о наличии около 30 000 генов, кодирующих белки, однако эта оценка снизилась до 19 000 с продолжающимся проектом аннотации GENCODE . [126] Количество некодирующих генов точно неизвестно, но последние оценки Ensembl предполагают наличие 26 000 некодирующих генов. [127]
Незаменимые гены — это набор генов, которые считаются критически важными для выживания организма. [129] Это определение предполагает обильное наличие всех соответствующих питательных веществ и отсутствие экологического стресса. Только небольшая часть генов организма является незаменимой. У бактерий, по оценкам, 250–400 генов являются незаменимыми для Escherichia coli и Bacillus subtilis , что составляет менее 10% их генов. [130] [131] [132] Половина этих генов являются ортологами в обоих организмах и в значительной степени участвуют в синтезе белка . [132] У почкующихся дрожжей Saccharomyces cerevisiae количество незаменимых генов немного выше — 1000 генов (~20% их генов). [133] Хотя это количество сложнее измерить у высших эукариот, у мышей и людей, по оценкам, имеется около 2000 незаменимых генов (~10% их генов). [134] Синтетический организм Syn 3 имеет минимальный геном из 473 основных генов и квазиосновных генов (необходимых для быстрого роста), хотя 149 из них имеют неизвестную функцию. [128]
К основным генам относятся гены «домашнего хозяйства» (имеющие решающее значение для основных функций клетки) [135], а также гены, которые экспрессируются в разное время развития или жизненного цикла организма . [136] Гены «домашнего хозяйства» используются в качестве экспериментального контроля при анализе экспрессии генов , поскольку они конститутивно экспрессируются на относительно постоянном уровне.
Номенклатура генов была установлена Комитетом по номенклатуре генов HUGO (HGNC), комитетом Организации генома человека , для каждого известного гена человека в форме утвержденного названия гена и символа (сокращенная форма аббревиатуры ), доступ к которым можно получить через базу данных, поддерживаемую HGNC. Символы выбираются уникальными, и каждый ген имеет только один символ (хотя утвержденные символы иногда меняются). Символы предпочтительно поддерживаются в соответствии с другими членами семейства генов и с гомологами у других видов, в частности у мыши из-за ее роли в качестве общего модельного организма . [137]
Генная инженерия — это модификация генома организма посредством биотехнологии . С 1970-х годов были разработаны различные методы для специфического добавления, удаления и редактирования генов в организме. [138] Недавно разработанные методы генной инженерии используют сконструированные ферменты нуклеазы для создания целенаправленного восстановления ДНК в хромосоме, чтобы либо нарушить, либо отредактировать ген при восстановлении разрыва. [139] [140] [141] [142] Родственный термин синтетическая биология иногда используется для обозначения обширной генной инженерии организма. [143]
Генная инженерия теперь является обычным инструментом исследования с модельными организмами . Например, гены легко добавляются к бактериям [144] , а линии нокаутированных мышей с нарушенной функцией определенного гена используются для исследования функции этого гена. [145] [146] Многие организмы были генетически модифицированы для применения в сельском хозяйстве , промышленной биотехнологии и медицине .
Для многоклеточных организмов обычно создается эмбрион , который вырастает во взрослый генетически модифицированный организм . [147] Однако геномы клеток во взрослом организме можно редактировать с помощью методов генной терапии для лечения генетических заболеваний.
... сама наука [т. е. изучение разведения и гибридизации растений] все еще безымянна, и мы можем описать наше занятие только громоздкими и часто вводящими в заблуждение перифразами. Чтобы преодолеть эту трудность, я предлагаю для рассмотрения на этом Конгрессе термин
Генетика
, который в достаточной степени указывает на то, что наши труды посвящены разъяснению явлений наследственности и изменчивости: другими словами, физиологии происхождения, с подразумеваемым отношением к теоретическим проблемам эволюциониста и систематика, и применением к практическим проблемам селекционеров, будь то животные или растения.