Эпигеномика — это изучение полного набора эпигенетических модификаций генетического материала клетки, известного как эпигеном . Эта область аналогична геномике и протеомике , которые изучают геном и протеом клетки. [1] [2] Эпигенетические модификации — это обратимые модификации ДНК или гистонов клетки, которые влияют на экспрессию генов, не изменяя последовательность ДНК. [3] Эпигеномное поддержание — это непрерывный процесс, который играет важную роль в стабильности эукариотических геномов, участвуя в таких важных биологических механизмах, как репарация ДНК. [4] [5] Считается, что растительные флавоны ингибируют эпигеномные метки, вызывающие рак. [6] Две из наиболее характерных эпигенетических модификаций — это метилирование ДНК и модификация гистонов . Эпигенетические модификации играют важную роль в экспрессии и регуляции генов и участвуют в многочисленных клеточных процессах, таких как дифференциация/развитие [7] и опухолеобразование . [8] Изучение эпигенетики на глобальном уровне стало возможным лишь недавно благодаря адаптации высокопроизводительных геномных анализов. [9] [7]
Геномные модификации, которые изменяют экспрессию генов, которые не могут быть отнесены к модификации первичной последовательности ДНК и которые наследуются митотически и мейотически, классифицируются как эпигенетические модификации. Метилирование ДНК и модификация гистонов являются одними из наиболее охарактеризованных эпигенетических процессов. [3]
Первой эпигенетической модификацией, которая была подробно охарактеризована, было метилирование ДНК. Как следует из названия, метилирование ДНК — это процесс, посредством которого к ДНК добавляется метильная группа . Ферменты, ответственные за катализ этой реакции, — ДНК-метилтрансферазы (DNMT) . Хотя метилирование ДНК стабильно и наследуется, его можно обратить вспять с помощью антагонистической группы ферментов, известных как ДНК-деметилазы. У эукариот метилирование чаще всего встречается в положении углерода 5 остатков цитозина (5mC), смежных с гуанином , называемых динуклеотидами CpG . [9] [10]
Паттерны метилирования ДНК сильно различаются между видами и даже в пределах одного организма. Использование метилирования среди животных весьма различно; позвоночные демонстрируют самые высокие уровни 5mC, а беспозвоночные — более умеренные уровни 5mC. У некоторых организмов, таких как Caenorhabditis elegans, не было продемонстрировано ни 5mC, ни обычной ДНК-метилтрансферазы; это предполагает, что задействованы и другие механизмы, помимо метилирования ДНК. [11]
В организме уровни метилирования ДНК также могут варьироваться в ходе развития и по регионам. Например, в первичных зародышевых клетках мыши даже происходит деметилирование по всему геному; к стадии имплантации уровни метилирования возвращаются к своим предыдущим соматическим значениям. [11] Когда метилирование ДНК происходит в промоторных областях , местах инициации транскрипции, оно имеет эффект подавления экспрессии генов. Это контрастирует с неметилированными промоторными областями, которые связаны с активно экспрессируемыми генами. [9]
Механизм, посредством которого метилирование ДНК подавляет экспрессию генов, является многоступенчатым процессом. Различение метилированных и неметилированных остатков цитозина осуществляется специфическими ДНК-связывающими белками. Связывание этих белков привлекает фермент гистондеацетилазы (HDAC) , который инициирует ремоделирование хроматина таким образом, что ДНК становится менее доступной для транскрипционных механизмов, таких как РНК-полимераза , эффективно подавляя экспрессию генов. [12]
У эукариот геномная ДНК свернута в комплексы белок-ДНК, называемые хроматином . Гистоны , которые являются наиболее распространенным типом белка, обнаруженного в хроматине, выполняют функцию конденсации ДНК; чистый положительный заряд гистонов облегчает их связывание с ДНК, которая заряжена отрицательно. Основные и повторяющиеся единицы хроматина, нуклеосомы , состоят из октамера гистоновых белков (H2A, H2B, H3 и H4) и ДНК длиной 146 п.н., обернутой вокруг него. Нуклеосомы и ДНК, соединяясь, образуют хроматиновое волокно диаметром 10 нм, которое может быть дополнительно конденсировано. [13] [14]
Упаковка хроматина ДНК варьируется в зависимости от стадии клеточного цикла и локального региона ДНК. [15] Степень конденсации хроматина связана с определенным транскрипционным состоянием. Неупакованный или рыхлый хроматин более транскрипционно активен, чем плотно упакованный хроматин, поскольку он более доступен для транскрипционного аппарата. Путем ремоделирования структуры хроматина и изменения плотности упаковки ДНК можно таким образом модулировать экспрессию генов. [14]
Ремоделирование хроматина происходит посредством посттрансляционных модификаций N-концевых хвостов основных гистоновых белков . [16] Совокупный набор модификаций гистонов в данной клетке известен как гистоновый код . Известно много различных типов модификации гистонов, включая: ацетилирование , метилирование , фосфорилирование , убиквитинирование , SUMOилирование , АДФ-рибозилирование , дезаминирование и изомеризацию пролина ; ацетилирование, метилирование, фосфорилирование и убиквитинирование участвуют в активации генов, тогда как метилирование, убиквитинирование, SUMOилирование, деиминирование и изомеризация пролина участвуют в репрессии генов. Обратите внимание, что несколько типов модификаций, включая метилирование, фосфорилирование и убиквитинирование, могут быть связаны с различными состояниями транскрипции в зависимости от конкретной аминокислоты на модифицируемом гистоне. Кроме того, область ДНК, где происходит модификация гистонов, также может вызывать различные эффекты; примером является метилирование 3-го ядра гистона в остатке лизина 36 (H3K36). Когда H3K36 встречается в кодирующих участках гена, он связан с активацией гена, но противоположное происходит, когда он находится в промоторной области. [14]
Модификации гистонов регулируют экспрессию генов двумя механизмами: путем нарушения контакта между нуклеосомами и путем привлечения АТФаз ремоделирования хроматина . Пример первого механизма происходит во время ацетилирования аминокислот концевого хвоста лизина , которое катализируется ацетилтрансферазами гистонов (HAT) . HAT являются частью мультипротеинового комплекса, который привлекается к хроматину, когда активаторы связываются с сайтами связывания ДНК. Ацетилирование эффективно нейтрализует основной заряд лизина, который участвует в стабилизации хроматина через его сродство к отрицательно заряженной ДНК. Поэтому ацетилированные гистоны способствуют диссоциации нуклеосом, и, таким образом, может происходить раскручивание хроматина. В состоянии рыхлого хроматина ДНК более доступна для транскрипционного аппарата, и, таким образом, экспрессия активируется. Процесс может быть обращен вспять путем удаления ацетильных групп гистонов деацетилазами. [14] [16]
Второй процесс включает в себя набор комплексов ремоделирования хроматина путем связывания молекул активатора с соответствующими областями энхансера. Комплексы ремоделирования нуклеосомы перемещают нуклеосомы несколькими механизмами, обеспечивая или блокируя доступ транскрипционного аппарата к ДНК. Белковый комплекс SWI/SNF в дрожжах является одним из примеров комплекса ремоделирования хроматина, который регулирует экспрессию многих генов посредством ремоделирования хроматина. [14] [17]
Эпигеномика имеет много общего с другими областями геномики, как в методологии, так и в ее абстрактной цели. Эпигеномика стремится идентифицировать и характеризовать эпигенетические модификации на глобальном уровне, аналогично изучению полного набора ДНК в геномике или полного набора белков в клетке в протеомике. [1] [2] Логика проведения эпигенетического анализа на глобальном уровне заключается в том, что можно сделать выводы об эпигенетических модификациях, которые в противном случае были бы невозможны посредством анализа определенных локусов. [13] [1] Как и в других областях геномики, эпигеномика в значительной степени опирается на биоинформатику , которая объединяет дисциплины биологии, математики и компьютерных наук. [18] Однако, хотя эпигенетические модификации были известны и изучались в течение десятилетий, именно благодаря этим достижениям в технологии биоинформатики стало возможным проводить анализы в глобальном масштабе. Многие современные методы по-прежнему опираются на старые методы, часто адаптируя их к геномным анализам, как описано в следующем разделе.
Клеточные процессы транскрипции , репликации ДНК и репарации ДНК включают взаимодействие между геномной ДНК и ядерными белками. Было известно, что определенные области внутри хроматина были чрезвычайно восприимчивы к перевариванию ДНКазой I , которая расщепляет ДНК в манере низкой специфичности последовательности. Такие гиперчувствительные участки считались транскрипционно активными областями, о чем свидетельствует их связь с РНК-полимеразой и топоизомеразами I и II . [19]
В настоящее время известно, что области чувствительности к ДНКазе I соответствуют областям хроматина со слабой ассоциацией ДНК-гистон. Гиперчувствительные сайты чаще всего представляют собой области промоторов, которые требуют, чтобы ДНК была доступна для функционирования ДНК-связывающего транскрипционного аппарата. [20]
Модификация гистонов была впервые обнаружена на уровне всего генома посредством соединения технологии иммунопреципитации хроматина (ChIP) с ДНК-микрочипами , называемыми ChIP-Chip . [13] Однако вместо выделения ДНК-связывающего фактора транскрипции или белка-энхансера посредством иммунопреципитации хроматина, интересующими белками являются сами модифицированные гистоны. Сначала гистоны сшиваются с ДНК in vivo посредством легкой химической обработки (например, формальдегидом ). Затем клетки лизируются, что позволяет извлечь и фрагментировать хроматин либо с помощью ультразвука , либо с помощью обработки неспецифическим рестрикционным ферментом (например, микрококковой нуклеазой ). В свою очередь, специфичные для модификации антитела используются для иммунопреципитации комплексов ДНК-гистон. [14] После иммунопреципитации ДНК очищается от гистонов, амплифицируется с помощью ПЦР и маркируется флуоресцентной меткой (например, Cy5, Cy3 ). Последний шаг включает гибридизацию меченой ДНК, как иммунопреципитированной, так и неиммунопреципитированной, на микрочипе, содержащем иммобилизованную геномную ДНК. Анализ относительной интенсивности сигнала позволяет определить сайты модификации гистонов. [21] [22]
ChIP-chip широко использовался для характеристики глобальных моделей модификации гистонов дрожжей . Из этих исследований были сделаны выводы о функции модификаций гистонов; что транскрипционная активация или репрессия была связана с определенными модификациями гистонов и по регионам. Хотя этот метод был эффективен, обеспечивая почти полное покрытие эпигенома дрожжей, его использование в более крупных геномах, таких как геномы человека, ограничено. [13] [14]
Для изучения модификаций гистонов на истинно геномном уровне, другие высокопроизводительные методы были объединены с иммунопреципитацией хроматина, а именно: SAGE: последовательный анализ экспрессии генов (ChIP-SAGE), PET: секвенирование парных концевых дитагов ( ChIP-PET ) и совсем недавно, секвенирование следующего поколения (ChIP-Seq) . ChIP-seq следует тому же протоколу для иммунопреципитации хроматина, но вместо амплификации очищенной ДНК и гибридизации с микрочипом, фрагменты ДНК напрямую секвенируются с использованием параллельного повторного секвенирования следующего поколения. Это оказалось эффективным методом для анализа глобальных паттернов модификации гистонов и целевых участков белка, обеспечивая более высокое разрешение, чем предыдущие методы. [13] [21]
Методы характеристики первичных последовательностей ДНК не могли быть напрямую применены к анализам метилирования. Например, когда ДНК амплифицировалась в ПЦР или бактериальных методах клонирования, паттерн метилирования не копировался, и, таким образом, информация терялась. Метод гибридизации ДНК , используемый в анализах ДНК, в котором радиоактивные зонды использовались для картирования и идентификации последовательностей ДНК, не мог быть использован для различения метилированной и неметилированной ДНК. [23] [9]
Самые ранние анализы обнаружения метилирования использовали чувствительные к модификации метилирования эндонуклеазы рестрикции . Геномная ДНК расщеплялась как чувствительными к метилированию, так и нечувствительными к метилированию ферментами рестрикции, распознающими один и тот же сайт рестрикции. Идея заключалась в том, что всякий раз, когда сайт был метилирован, только нечувствительный к метилированию фермент мог расщеплять его в этом положении. Сравнивая размеры фрагментов рестрикции, полученных от чувствительного к метилированию фермента, с размерами нечувствительного к метилированию фермента, можно было определить схему метилирования региона. Этот этап анализа был выполнен путем амплификации фрагментов рестрикции с помощью ПЦР, разделения их с помощью гель-электрофореза и анализа их с помощью саузерн-блоттинга с зондами для интересующего региона. [23] [9]
Эта техника была использована для сравнения моделей модификации метилирования ДНК в локусах генов взрослого человека и гемоглобина . Известно, что различные регионы гена (гамма-дельта-бета-глобин) экспрессируются на разных стадиях развития. [24] В соответствии с ролью метилирования ДНК в репрессии генов, регионы, которые были связаны с высокими уровнями метилирования ДНК, не были активно экспрессированы. [25]
Этот метод был ограничен и не подходил для исследований глобального паттерна метилирования, или «метилома». Даже в пределах определенных локусов он не был полностью репрезентативным для истинного паттерна метилирования, поскольку только те сайты рестрикции с соответствующими чувствительными и нечувствительными к метилированию рестрикционными анализами могли предоставить полезную информацию. Дальнейшие осложнения могли возникнуть, когда неполное переваривание ДНК рестрикционными ферментами давало ложноотрицательные результаты. [9]
Профилирование метилирования ДНК в больших масштабах впервые стало возможным благодаря методу сканирования генома по рестрикционным маркерам (RLGS) . Как и локус-специфический анализ метилирования ДНК, метод идентифицировал метилированную ДНК с помощью ее ферментов, чувствительных к метилированию. Однако именно использование двумерного гель-электрофореза позволило охарактеризовать ее в более широком масштабе. [9]
Однако только с появлением микрочипов и технологии секвенирования следующего поколения стало возможным действительно высокое разрешение и метилирование ДНК по всему геному. [26] Как и в случае с RLGS, компонент эндонуклеазы сохраняется в методе, но он сочетается с новыми технологиями. Одним из таких подходов является гибридизация дифференциального метилирования (DMH), при которой один набор геномной ДНК расщепляется чувствительными к метилированию рестрикционными ферментами, а параллельный набор ДНК не расщепляется. Оба набора ДНК впоследствии амплифицируются, и каждый из них маркируется флуоресцентными красителями и используется в двухцветной гибридизации массива. Уровень метилирования ДНК в заданных локусах определяется относительными соотношениями интенсивности двух красителей. Адаптация секвенирования следующего поколения к анализу метилирования ДНК обеспечивает несколько преимуществ по сравнению с гибридизацией массива. Технология на основе секвенирования обеспечивает более высокое разрешение аллель-специфического метилирования ДНК, может применяться на более крупных геномах и не требует создания микрочипов ДНК, которые требуют корректировки на основе плотности CpG для правильного функционирования. [9]
Бисульфитное секвенирование основано исключительно на химическом преобразовании неметилированных цитозинов, так что их можно идентифицировать с помощью стандартных методов секвенирования ДНК. Обработка бисульфатом натрия и щелочью делает это, преобразуя неметилированные остатки цитозина в урацил, оставляя метилированный цитозин неизмененным. Последующая амплификация и секвенирование необработанной ДНК и ДНК, обработанной бисульфитом натрия, позволяет идентифицировать метилированные сайты. Бисульфитное секвенирование, как и традиционные методы, основанные на рестрикции, исторически ограничивалось паттернами метилирования определенных локусов генов, пока не стали доступны технологии секвенирования всего генома. Однако, в отличие от традиционных методов, основанных на рестрикции, бисульфитное секвенирование обеспечивало разрешение на уровне нуклеотидов. [23] [9]
Ограничения бисульфитной техники включают неполное преобразование цитозина в урацил, что является источником ложных положительных результатов. Кроме того, бисульфитная обработка также вызывает деградацию ДНК и требует дополнительного этапа очистки для удаления бисульфита натрия. [9]
Секвенирование следующего поколения хорошо подходит для дополнения бисульфитного секвенирования в полногеномном анализе метилирования . Хотя теперь это позволяет определять паттерн метилирования с максимально возможным разрешением, на уровне отдельных нуклеотидов, проблемы на этапе сборки все еще остаются из-за сниженной сложности последовательности в обработанной бисульфитом ДНК. Увеличение длины считывания направлено на решение этой проблемы, позволяя выполнять бисульфитное секвенирование всего генома (WGBS). Подход WGBS с использованием платформы Illumina Genome Analyzer уже был реализован в Arabidopsis thaliana . [9] Существуют также методы геномной репрезентативности, основанные на бисульфитном секвенировании, [27] [28], и они особенно подходят для видов с большими размерами генома. [29]
Доступность хроматина является мерой того, насколько «доступен» или «открыт» регион генома для транскрипции или связывания факторов транскрипции. Регионы, которые недоступны (т. е. потому что они связаны нуклеосомами ), не транскрибируются активно клеткой, в то время как открытые и доступные регионы транскрибируются активно. [30] Изменения доступности хроматина являются важными эпигенетическими регуляторными процессами, которые управляют экспрессией генов, специфичной для клетки или контекста. [31] Такие анализы, как MNase-seq, DNase-seq, ATAC-seq или FAIRE-seq, обычно используются для понимания доступного ландшафта хроматина клеток. Главной особенностью всех этих методов является то, что они способны выборочно изолировать либо последовательности ДНК, которые связаны с гистонами , либо те, которые не связаны. Затем эти последовательности сравниваются с референтным геномом, что позволяет определить их относительное положение. [32]
MNase-seq и DNase-seq оба следуют тем же принципам, поскольку они используют литические ферменты, которые нацелены на нуклеиновые кислоты, чтобы разрезать нити ДНК, не связанные нуклеосомами или другими белковыми факторами, в то время как связанные части защищены и могут быть извлечены и проанализированы. Поскольку активные, несвязанные области разрушаются, их обнаружение может быть только косвенным, путем секвенирования с помощью техники секвенирования следующего поколения и сравнения с эталоном. MNase-seq использует микрококковую нуклеазу, которая производит одноцепочечное расщепление на противоположной нити целевой последовательности. [33] DNase-seq использует ДНКазу I , неспецифическую двухцепочечную расщепляющую эндонуклеазу. Эта техника использовалась до такой степени, что области, свободные от нуклеосом, были обозначены как DHS, гиперчувствительные к ДНКазе I участки [34] и стали методом выборов консорциума ENCODE для анализа доступности хроматина по всему геному. [35] Основная проблема этой техники заключается в том, что распределение расщеплений может быть смещено, [36] что снижает качество результатов.
FAIRE-seq (формальдегидная изоляция регуляторных элементов) требует в качестве первого шага сшивания ДНК с нуклеосомами, а затем разрезания ДНК ультразвуком . Свободные и связанные фрагменты разделяются с помощью традиционной фенол-хлороформной экстракции, поскольку белковая фракция застревает в интерфазе, в то время как несвязанная ДНК переходит в водную фазу и может быть проанализирована различными методами. [37] Ультразвук производит случайные разрывы и, следовательно, не подвержен каким-либо смещениям, а также большая длина фрагментов (200-700 нт) делает этот метод подходящим для более широких областей, в то время как он не способен разрешить отдельную нуклеосому. [32] В отличие от методов на основе нуклеазы, FAIRE-seq позволяет напрямую идентифицировать транскрипционно активные сайты и менее трудоемкую подготовку образца. [38]
ATAC-seq основан на активности транспозазы Tn5. Транспозаза используется для вставки меток в геном, с более высокой частотой в областях, не охваченных белковыми факторами. Затем метки используются в качестве адаптеров для PRC или других аналитических инструментов. [39]
Чувствительность полимеразы при секвенировании отдельных молекул в реальном времени позволила ученым напрямую обнаруживать эпигенетические метки, такие как метилирование, по мере того, как полимераза движется вдоль секвенируемой молекулы ДНК. [40] Несколько проектов продемонстрировали возможность сбора эпигенетических данных по всему геному бактерий. [41] [42] [43] [44]
Секвенирование нанопор основано на изменении сигналов электролитического тока в соответствии с модификациями оснований (например, метилированием). Полимераза опосредует вход одноцепочечной ДНК в пору: изменение ионного тока модулируется участком поры, и, следовательно, генерируемая разница регистрируется, выявляя положение CpG . Различение гидроксиметилирования и метилирования возможно благодаря твердотельным нанопорам, даже если ток при прохождении через область сильного поля поры может быть слегка изменен в нем. [45] В качестве референсной используется амплифицированная ДНК, которая не будет представлять скопированных метилированных участков после процесса ПЦР . [46] Секвенатор Oxford Nanopore Technologies MinION — это технология, в которой, согласно скрытой марковской модели, можно отличить неметилированный цитозин от метилированного даже без химической обработки, которая действует для усиления сигнала этой модификации. Данные обычно регистрируются в пикоамперах в течение установленного времени. Другими устройствами являются Nanopolish и SignaAlign: первое выражает частоту метилирования в считывании, а второе дает вероятность этого, полученную из суммы всех считываний. [47]
Секвенирование в реальном времени одной молекулы (SMRT) — это метод секвенирования ДНК одной молекулы. Секвенирование в реальном времени одной молекулы использует волновод нулевой моды (ZMW). Один фермент ДНК-полимеразы связан с дном ZMW с одной молекулой ДНК в качестве шаблона. Каждое из четырех оснований ДНК прикреплено к одному из четырех различных флуоресцентных красителей . Когда нуклеотид включается ДНК-полимеразой, флуоресцентная метка отщепляется, и детектор обнаруживает флуоресцентный сигнал включения нуклеотида. По мере секвенирования кинетика фермента полимеразы смещается, когда он сталкивается с областью метилирования или любой другой модификации основания. Когда фермент сталкивается с химически модифицированными основаниями, он замедляется или ускоряется однозначно идентифицируемым образом. Импульсы флуоресценции в секвенировании SMRT характеризуются не только спектрами испускания, но также их длительностью и интервалом между последовательными импульсами. Эти метрики, определяемые как ширина импульса и длительность межимпульсного интервала (IPD), добавляют ценную информацию о кинетике ДНК-полимеразы. Ширина импульса является функцией всех кинетических шагов после связывания нуклеотидов и до высвобождения флуорофора, а IPD определяется кинетикой связывания нуклеотидов и транслокации полимеразы.
В 2010 году группа ученых продемонстрировала использование секвенирования в реальном времени отдельных молекул для прямого обнаружения модифицированного нуклеотида в матрице ДНК, включая N6-метиладенозин , 5-метилцитозин и 5-гидроксицитозин. Эти различные модификации по-разному влияют на кинетику полимеразы, что позволяет различать их. [48]
В 2017 году другая группа предложила комбинированную бисульфитную конверсию с секвенированием отдельных молекул в реальном времени третьего поколения, она называется бисульфитным секвенированием отдельных молекул в реальном времени (SMRT-BS), что является точным методом анализа метилирования CpG, способным обеспечить высокую степень размножения и большую длину прочтения (1,5 кб) без необходимости субклонирования ампликона ПЦР. [49]
Первые математические модели для различных состояний нуклеосом, влияющих на экспрессию генов, были введены в 1980-х годах [ссылка]. Позже эта идея была почти забыта, пока экспериментальные данные не указали на возможную роль ковалентных модификаций гистонов как эпигенетического кода . [50] В последующие несколько лет высокопроизводительные данные действительно раскрыли обилие эпигенетических модификаций и их связь с функционированием хроматина, что мотивировало новые теоретические модели для появления, поддержания и изменения этих паттернов. [51] [52] Эти модели обычно формулируются в рамках одномерных решеточных подходов. [53]