Генные пустыни — это области генома, лишенные генов, кодирующих белки. Генные пустыни составляют примерно 25% всего генома, что привело к недавнему интересу к их истинным функциям. [1] Первоначально считалось, что они содержат несущественную и « мусорную ДНК » из-за их неспособности создавать белки, с тех пор генные пустыни были связаны с несколькими жизненно важными регуляторными функциями, включая дистальное усиление и консервативное наследование. Таким образом, все большее количество рисков, которые приводят к нескольким серьезным заболеваниям, включая несколько видов рака, приписывается нарушениям, обнаруженным в генных пустынях.
Одним из наиболее ярких примеров является область гена 8q24, которая при воздействии определенных однонуклеотидных полиморфизмов приводит к множеству заболеваний. Главные идентифицирующие факторы генных пустынь заключаются в их низком содержании GpC и относительно высоком уровне повторов, которые не наблюдаются в кодирующих областях. Недавние исследования еще больше классифицировали генные пустыни на изменчивые и стабильные формы; области классифицируются на основе их поведения посредством рекомбинации и их генетического содержания. Хотя текущие знания о генных пустынях довольно ограничены, продолжающиеся исследования и усовершенствованные методы начинают открывать двери для изучения различных важных эффектов этих некодирующих областей.
Хотя возможность функционирования генных пустынь была предсказана еще в 1960-х годах, инструменты генетической идентификации не смогли выявить никаких специфических характеристик длинных некодирующих областей, за исключением того, что в этих областях не происходило никакого кодирования. [2]
До завершения генома человека в 2001 году в рамках проекта «Геном человека » большинство ранних сравнений ассоциативных генов основывалось на убеждении, что основные гены домашнего хозяйства были сгруппированы в одних и тех же областях генома для удобства доступа и жесткой регуляции. Это убеждение позже построило гипотезу о том, что генные пустыни, следовательно, являются предыдущими регуляторными последовательностями, которые тесно связаны (и, следовательно, не подвергаются рекомбинации), но имели замены между собой с течением времени. [2] [3] Эти замены могли привести к тому, что строго консервативные гены со временем разделятся, образуя таким образом области бессмысленных кодов с несколькими основными генами. Однако неопределенность из-за дифференциальных скоростей сохранения генов в разных частях хромосом помешала точной идентификации. Позднее ассоциации были ремоделированы, когда регуляторные последовательности были связаны с факторами транскрипции, что привело к рождению крупномасштабного картирования всего генома. Так началась охота за содержанием и функциями генных пустынь.
Недавние достижения в скрининге хроматиновых сигнатур на хромосомах (например, захват конформации хромосом , также известный как 3C) позволили подтвердить модель активации генов на больших расстояниях, которая постулирует, что действительно существуют физические связи между регуляторными усилителями и их целевыми промоторами . [2] Исследования генных пустынь, хотя и сосредоточены на генетике человека, также применялись к мышам, различным птицам и Drosophila melanogaster . [4] [5] Хотя консервация изменчива среди геномов выбранных видов, ортологичные генные пустыни функционируют схожим образом. Таким образом, преобладающее утверждение о генных пустынях заключается в том, что эти некодирующие последовательности содержат активные и важные регуляторные элементы.
Одно исследование было сосредоточено на регуляторном архипелаге, регионе с «островками» кодирующих последовательностей, окруженных обширными некодирующими областями. Исследование, в котором изучалось влияние регуляции на гены hox , изначально было сосредоточено на двух последовательностях энхансеров, GCR и Prox, которые расположены на 200 и 50 пар оснований выше локуса Hox D соответственно. [5] Чтобы манипулировать регионом, исследование инвертировало две последовательности энхансеров и не обнаружило никаких серьезных эффектов на транскрипцию гена Hox D, хотя эти две последовательности были наиболее близкими последовательностями к гену. Таким образом, исследование обратилось к генной пустыне, которая фланкировала последовательность GCR выше по течению, и обнаружило в ней 5 регуляторных островов, которые могли регулировать ген. Чтобы выбрать наиболее вероятного кандидата, исследование затем применило несколько индивидуальных и множественных делеций к пяти островам для наблюдения за эффектами. Эти различные делеции привели только к незначительным эффектам, включая физические аномалии или несколько отсутствующих цифр.
Когда эксперимент был сделан на шаг дальше и применена делеция всего 830-килобазного гена desert, функциональность всего локуса Hox D стала неактивной. [5] Это указывает на то, что соседний ген desert, как вся единица из 830 килобаз (включая пять островных последовательностей внутри него), служит важным регулятором одного гена, который охватывает всего 50 килобаз. Таким образом, эти результаты намекают на регуляторные эффекты фланкирующих генов desert. Это исследование было подкреплено более поздним наблюдением посредством сравнения между флуоресцентной гибридизацией in situ и захватом конформации хромосомы, которое обнаружило, что локус Hox D был наиболее деконденсированной частью в регионе. Это означало, что он имел относительно более высокую активность по сравнению с фланкирующими генами desert. [6] Следовательно, Hox D мог регулироваться определенными близлежащими последовательностями энхансеров, которые не были выражены в унисон. Однако это предупреждает, что близость является неточной при использовании любого из аналитических методов. [6] Таким образом, связи между регуляторными генными пустынями и их целевыми промоторами, по-видимому, имеют различные расстояния и не обязаны действовать как границы.
Изменчивость расстояния показывает, что расстояние может быть еще одним важным фактором, который определяется генными пустынями. Например, дистальные энхансеры могут взаимодействовать со своими целевыми промоторами посредством петлевых взаимодействий, которые должны действовать на определенном расстоянии. [7] Таким образом, близость не является точным предиктором энхансеров: энхансерам не нужно граничить со своей целевой последовательностью, чтобы регулировать ее. Хотя это приводит к вариации расстояний, среднее расстояние между сайтами начала транскрипции и комплексом взаимодействия, опосредованным их элементами энхансера, составляет 120 килобаз выше стартового сайта. [7]
Генные пустыни могут играть роль в построении этого расстояния, чтобы обеспечить максимальное зацикливание. Учитывая, что механизм формирования энхансерного комплекса является довольно просто регулируемым механизмом (структуры, которые рекрутируются в усиливающий комплекс, имеют различные регуляторные элементы управления, которые контролируют построение), более 50% промоторов имеют несколько дальнодействующих взаимодействий. Некоторые основные гены даже имеют до 20 возможных усиливающих взаимодействий. Существует любопытная тенденция к образованию комплексов только выше промоторов. [7] Таким образом, учитывая корреляцию, что многие регуляторные генные пустыни появляются выше своих целевых промоторов, возможно, что более непосредственная роль, которую играют генные пустыни, заключается в дальнодействующей регуляции ключевых последовательностей. Поскольку идеальное формирование взаимодействий энхансеров требует определенных конструкций, возможным побочным продуктом регуляторных ролей генных пустынь может быть консервация генов: чтобы сохранить определенные длины петель и порядок регулирующих генов, скрытых в генных пустынях, определенные части генных пустынь более высококонсервативны, чем другие, при прохождении через события наследования. Эти консервативные некодирующие последовательности (CNS) напрямую связаны с синтенным наследованием у всех позвоночных. [8] Таким образом, наличие этих CNS может служить для сохранения больших участков генов.
Хотя расстояние может варьироваться в пустынях регуляторных генов, расстояние, по-видимому, имеет верхний предел в пустынях консервативных генов. Первоначально считалось, что ЦНС находятся близко к их консервативным генам: более ранние оценки помещали большинство ЦНС в непосредственной близости от последовательностей генов. [8] Однако расширение генетических данных показало, что несколько ЦНС находятся на расстоянии до 2,5 мегабаз от своих целевых генов, при этом большинство ЦНС находятся между 1 и 2 мегабазами. Этот диапазон, который был измерен для генома человека, варьируется у разных видов. Например, по сравнению с людьми, рыба фугу имеет меньший диапазон с предполагаемым максимальным расстоянием в несколько сотен килобаз. Независимо от разницы в длине, ЦНС работают схожими методами у обоих видов. [8] Таким образом, поскольку функции между пустынями генов различаются, различается и их содержимое.
Некоторые пустыни генов являются мощными регуляторами, в то время как другие могут быть удалены без какого-либо эффекта. В качестве возможной классификации пустыни генов можно разбить на два подтипа: стабильные и переменные. [1] У стабильных пустынь генов меньше повторов и относительно более высокое содержание гуанина в цитозин (GpC), чем у переменных пустынь генов.
Содержание гуанина и цитозина указывает на функциональность кодирования белка. Например, в исследовании хромосом 2 и 4, которые были связаны с несколькими генетическими заболеваниями, в определенных регионах было повышенное содержание GpC. [9] Мутации в этих богатых GC регионах вызвали множество заболеваний, что выявило необходимую целостность этих генов. Высокоплотные регионы CpG служат регуляторными регионами для метилирования ДНК . [10] Следовательно, основные кодирующие гены должны быть представлены регионами с высоким содержанием CpG. В частности, регионы с высоким содержанием GC должны иметь тенденцию к высокой плотности генов, которые в основном посвящены основным процессам ведения домашнего хозяйства и тканеспецифическим процессам. [11] Эти процессы потребуют наибольшей выработки белка для выражения функциональности. Стабильные пустыни генов, которые имеют более высокие уровни содержания GC, должны, следовательно, содержать основные последовательности энхансеров. Это может определять консервативные функции стабильных пустынь генов.
С другой стороны, приблизительно 80% генных пустынь имеют низкое содержание GpC, что указывает на то, что у них очень мало основных генов. [9] Таким образом, большинство генных пустынь являются изменчивыми генными пустынями, которые могут иметь альтернативные функции. Одна из распространенных теорий относительно происхождения генных пустынь постулирует, что генные пустыни представляют собой скопления основных генов, которые действуют как дистанция. [1] [10] Это может быть правдой, поскольку, учитывая небольшое количество основных генов в них, эти регионы были бы менее консервативными. В результате, из-за распространенности превращений цитозина в тимин, наиболее распространенного SNP, вызвало бы постепенное разделение между несколькими основными генами в изменчивых генных пустынях. Эти основные последовательности поддерживались бы и сохранялись, что приводило бы к небольшим областям высокой плотности, которые регулируются на расстоянии. [10] Таким образом, содержание GC является указанием на наличие кодирующих или регуляторных процессов в ДНК.
В то время как стабильные генные пустыни имеют более высокое содержание GC, это относительное значение является лишь средним. В стабильных генных пустынях, хотя концы содержат очень высокие уровни содержания GC, основная часть ДНК содержит даже меньше содержания GC, чем наблюдается в переменных генных пустынях. Это указывает на то, что в стабильных генных пустынях очень мало высококонсервативных областей, которые не рекомбинируют или делают это с очень низкой скоростью. [9] Учитывая, что концы стабильных генных пустынь имеют особенно высокие уровни содержания GC, эти последовательности должны быть чрезвычайно консервативными. Эта консервация, в свою очередь, может привести к тому, что фланкирующие гены также будут иметь более высокие показатели консервации. Таким образом, стабильные гены должны быть напрямую связаны по крайней мере с одним из своих фланкирующих генов и не могут быть отделены от кодирующих последовательностей событиями рекомбинации. [1] Большинство генных пустынь, по-видимому, группируются парами вокруг небольшого числа генов. Такая кластеризация создает длинные локусы с очень низкой плотностью генов; небольшие регионы с большим количеством генов окружены длинными участками генных пустынь, создавая низкое среднее значение генов. Таким образом, минимизированная вероятность событий рекомбинации в этих длинных локусах создает синтенные блоки, которые наследуются вместе с течением времени. [1] Эти синтенные блоки могут сохраняться в течение очень длительных периодов времени, предотвращая потерю основного материала, даже если расстояние между основными генами может со временем увеличиваться.
Хотя этот эффект теоретически должен быть усилен за счет еще более низкого содержания GC в пустынях переменных генов (тем самым действительно минимизируя плотность генов), показатели сохранения генов в пустынях переменных генов даже ниже, чем наблюдаемые в пустынях стабильных генов — на самом деле, этот показатель намного ниже, чем в остальной части генома. Возможным объяснением этого явления является то, что пустыни переменных генов могут быть недавно эволюционировавшими областями, которые еще не были зафиксированы в пустынях стабильных генов. [1] Следовательно, перетасовка все еще может происходить до того, как стабилизирующие области в пустынях переменных генов начнут группироваться как целые единицы. Есть несколько исключений из этой минимальной скорости сохранения, так как несколько пустынь генов GC подвергаются гиперметилированию, что значительно снижает доступ к ДНК, тем самым эффективно защищая область от рекомбинации. [11] Однако это редко происходит в наблюдениях.
Хотя стабильные и изменчивые генные пустыни различаются по содержанию и функции, оба обладают консерваторскими способностями. Возможно, что поскольку большинство изменчивых генных пустынь имеют регуляторные элементы, которые могут действовать на расстоянии, сохранение всей генной пустыни в ситеничном локусе не было бы необходимым, пока эти регуляторные элементы сами сохранялись как единицы. Учитывая особенно низкие уровни содержания GC, регуляторные элементы, следовательно, находились бы в ситуации минимальной плотности генов, как это наблюдается аналогично в фланкирующих стабильных генных пустынях, с тем же эффектом. Таким образом, оба типа генных пустынь служат для сохранения важных генов в геноме.
Консервативная природа генных пустынь подтверждает, что эти участки некодирующих оснований необходимы для правильного функционирования. Действительно, широкий спектр исследований нарушений в некодирующих генах обнаружил несколько ассоциаций с генетическими заболеваниями. Одним из наиболее изученных генных пустынь является область 8q24. Ранние исследования ассоциаций по всему геному были сосредоточены на области 8q24 (расположенной на хромосоме 8 ) из-за аномально высоких показателей SNP, которые, по-видимому, встречаются в этой области. Эти исследования показали, что эта область связана с повышенным риском различных видов рака, в частности, предстательной железы, молочной железы, яичников, толстой кишки и поджелудочной железы. [12] [13] Используя вставки генной пустыни в бактериальные искусственные хромосомы, одно исследование смогло вызвать активность энхансера в определенных областях, которые были выделены с помощью систем клонирования. [14] Это исследование успешно идентифицировало последовательность энхансера, скрытую в этой области. В этой последовательности усилителя у больных мышей был обнаружен SNP, который подразумевал риск рака простаты, обозначенный как SNP s6983267. Однако область 8q24 не ограничивается только подразумеваемыми рисками рака простаты. Исследование 2008 года провело скрининг людей (и контрольных групп) с вариациями в области генной пустыни, выявив пять различных областей, которые подразумевали различные риски при воздействии различных SNP. [12] В этом исследовании использовались идентифицированные маркеры SNP в генной пустыне для определения связи риска от каждой из областей с определенной экспрессией ткани. Хотя эти риски были успешно связаны с различными формами рака, Ghoussaini, M. и др. отмечают свою неопределенность в отношении того, функционировали ли SNP просто как маркеры или были прямыми возбудителями рака.
Эти разнообразные эффекты возникают из-за различных взаимодействий между SNP в этой области и промоторами MYC разных органов. Промотор MYC, который расположен на небольшом расстоянии ниже по течению от области 8q24, возможно, является наиболее изученным онкогеном из-за его связи с множеством заболеваний. [13] Нормальное функционирование промотора MYC обеспечивает регулярное деление клеток. Исследование постулирует, что область 8q, которая подверглась хромосомной транслокации у людей, могла переместить существенный энхансер для промотора MYC. [13] Эти области вокруг этой области могли подвергнуться рекомбинации, которая могла скрыть существенный энхансер MYC в генной пустыне с течением времени, хотя его усиливающие эффекты все еще в значительной степени сохраняются. Этот анализ исходит из ассоциаций с заболеваниями, наблюдаемых у нескольких видов мышей, где эта область сохраняется в непосредственной близости от промотора MYC. [13] Таким образом, генная пустыня 8q24 должна была быть в некоторой степени связана с промотором MYC. Пустыня напоминает стабильную генную пустыню, которая имела очень мало рекомбинации после события транслокации. Таким образом, потенциальная гипотеза заключается в том, что SNP, влияющие на этот регион, нарушают важные тканеспецифичные гены с помощью стабильной генной пустыни, что может объяснить риски рака в различных формах тканей. Этот эффект скрытых энхансерных элементов можно наблюдать и в других местах генома. Например, SNP в 5p13.1 дерегулируют кодирующую область PTGER4, что приводит к болезни Крона. [15] Другая затронутая область в генной пустыне 9p21 вызывает несколько заболеваний коронарной артерии. [16] Однако ни одна из этих генных пустынь, представляющих риск, по-видимому, не затронута так сильно, как области 8q24. Текущие исследования все еще не уверены в процессах, затронутых SNP в области 8q24, которые приводят к особенно усиленным ответам на промотор MYC. С помощью более доступной популяции и более специфичных маркеров для картирования ассоциаций по всему геному все большее число аллелей риска теперь отмечается в генных пустынях, где небольшие, изолированные и, казалось бы, незначительные области генов могут смягчать важные гены.
Большая часть содержимого генных пустынь, скорее всего, все еще будет одноразовой. [ необходима цитата ] Естественно, это не означает, что роли, которые играют генные пустыни, несущественны или неважны, скорее их функции могут включать буферные эффекты. Примером существенных генных пустынь с несущественным содержимым ДНК являются теломеры, которые защищают концы геномов. Теломеры можно отнести к категории настоящих генных пустынь, учитывая, что они содержат только повторы TTAGGG (у людей) и не имеют очевидных функций кодирования белков. Без этих теломер человеческие геномы были бы сильно мутированы в течение фиксированного числа клеточных циклов. С другой стороны, поскольку теломеры не кодируют белки, их потеря гарантирует отсутствие эффекта в важных процессах. Поэтому термин «мусорная» ДНК больше не должен применяться к какой-либо области генома; каждая часть генома должна играть роль в защите, регулировании или восстановлении областей кодирования белков, которые определяют функции жизни. Хотя нам еще многое предстоит узнать о закоулках огромного (но ограниченного) человеческого генома, с помощью различных новых технологий и синтеза полного человеческого генома мы, возможно, сможем в ближайшие годы разгадать огромную коллекцию секретов о чудесах нашего генетического кода.