ChIP-секвенирование , также известное как ChIP-seq , представляет собой метод, используемый для анализа взаимодействий белка с ДНК . ChIP-seq сочетает в себе иммунопреципитацию хроматина (ChIP) с массово-параллельным секвенированием ДНК для идентификации сайтов связывания ДНК-ассоциированных белков. Его можно использовать для точного картирования глобальных сайтов связывания любого интересующего белка. Ранее ChIP-на-чипе был наиболее распространенным методом, используемым для изучения отношений белок-ДНК.
ChIP-seq в первую очередь используется для определения того, как факторы транскрипции и другие белки, ассоциированные с хроматином, влияют на механизмы, влияющие на фенотип . Определение того, как белки взаимодействуют с ДНК, регулируя экспрессию генов , имеет важное значение для полного понимания многих биологических процессов и болезненных состояний. Эта эпигенетическая информация дополняет анализ генотипа и экспрессии. Технология ChIP-seq в настоящее время рассматривается в первую очередь как альтернатива ChIP-чипу , требующему гибридизационного массива . Это вносит некоторую предвзятость, поскольку массив ограничен фиксированным количеством зондов. Секвенирование, напротив, считается менее предвзятым, хотя смещение различных технологий секвенирования еще не до конца изучено. [1]
Специфические участки ДНК, находящиеся в прямом физическом взаимодействии с факторами транскрипции и другими белками, можно выделить методом иммунопреципитации хроматина . ChIP создает библиотеку целевых участков ДНК, связанных с интересующим белком. Массивно-параллельный анализ последовательностей используется в сочетании с базами данных последовательностей всего генома для анализа паттерна взаимодействия любого белка с ДНК [2] или паттерна любых эпигенетических модификаций хроматина . Это можно применить к набору белков и модификаций, способных использовать ChIP, таких как факторы транскрипции, полимеразы и транскрипционные механизмы , структурные белки , модификации белков и модификации ДНК. [3] В качестве альтернативы зависимости от специфических антител были разработаны различные методы для поиска расширенного набора всех нуклеосомно -истощенных или нуклеосомно-разрушенных активных регуляторных областей в геноме, такие как DNase-Seq [4] и FAIRE-Seq . [5] [6]
ChIP — мощный метод избирательного обогащения последовательностей ДНК, связанных с определенным белком, в живых клетках . Однако широкое использование этого метода было ограничено отсутствием достаточно надежного метода для идентификации всех обогащенных последовательностей ДНК. Протокол влажной лаборатории ChIP включает ChIP и гибридизацию. Протокол ChIP состоит из пяти частей [7] , которые помогают лучше понять весь процесс ChIP. Для проведения ЧИП первым шагом является перекрестное сшивание [8] с использованием формальдегида и больших партий ДНК для получения полезного количества. Поперечные связи образуются между белком и ДНК, а также между РНК и другими белками. Вторым шагом является процесс фрагментации хроматина, который разрушает хроматин, чтобы в конечном итоге получить высококачественные фрагменты ДНК для анализа ChIP. Эти фрагменты следует разрезать так, чтобы их длина составляла менее 500 пар оснований [9] каждый, чтобы обеспечить наилучший результат для картирования генома. Третий этап называется иммунопреципитацией хроматина [7] и это сокращение от ChIP. Процесс ChIP усиливает специфические сшитые комплексы ДНК-белок с использованием антитела против интересующего белка с последующей инкубацией и центрифугированием для получения иммунопреципитации. Стадия иммунопреципитации также позволяет удалить сайты неспецифического связывания. Четвертый этап — восстановление и очистка ДНК, [7] происходящая путем обратного воздействия на поперечную связь между ДНК и белком с целью их разделения и очистки ДНК с помощью экстракции. Пятый и последний шаг — это этап анализа протокола ChIP с помощью процесса qPCR , ChIP-на-чипе (гибридный массив) или секвенирования ChIP. Затем к небольшим участкам ДНК, которые были связаны с интересующим белком, добавляются олигонуклеотидные адаптеры, чтобы обеспечить массовое параллельное секвенирование . Затем посредством анализа последовательности можно идентифицировать и интерпретировать по гену или участку, с которым был связан белок. [7]
После выбора размера все полученные фрагменты ChIP-ДНК секвенируются одновременно с помощью секвенатора генома. За один цикл секвенирования можно сканировать общегеномные ассоциации с высоким разрешением, а это означает, что признаки могут быть расположены точно на хромосомах. Чип-чип, напротив, требует больших наборов тайловых массивов для меньшего разрешения. [10]
На этом этапе секвенирования используется множество новых методов секвенирования . Некоторые технологии, анализирующие последовательности, могут использовать кластерную амплификацию фрагментов ДНК ChIP, лигированных адаптером, на твердом субстрате проточных клеток для создания кластеров примерно по 1000 клональных копий каждый. Полученный массив шаблонных кластеров высокой плотности на поверхности проточной кюветы секвенируется с помощью программы анализа генома. Каждый матричный кластер параллельно подвергается секвенированию путем синтеза с использованием новых флуоресцентно меченных обратимых терминаторных нуклеотидов. Шаблоны секвенируются база за базой во время каждого чтения. Затем программное обеспечение для сбора и анализа данных выравнивает последовательности образцов с известной геномной последовательностью для идентификации фрагментов ChIP-ДНК. [ нужна цитата ]
ChIP-seq предлагает нам быстрый анализ, однако необходимо провести контроль качества, чтобы убедиться в достоверности полученных результатов:
Чувствительность этой технологии зависит от глубины проведения секвенирования (т.е. количества картированных тегов последовательности), размера генома и распределения целевого фактора. Глубина секвенирования напрямую коррелирует со стоимостью. Если необходимо картировать обильные связывающие вещества в больших геномах с высокой чувствительностью, затраты будут высокими, поскольку потребуется чрезвычайно большое количество меток последовательностей. В этом отличие от ЧИП-чипа, у которого стоимость не коррелирует с чувствительностью. [12] [13]
В отличие от методов ChIP на основе микрочипов , точность анализа ChIP-seq не ограничивается расстоянием между заранее определенными зондами. За счет интеграции большого количества коротких ридов достигается очень точная локализация сайта связывания. По сравнению с ChIP-чипом, данные ChIP-seq можно использовать для определения местоположения сайта связывания в пределах нескольких десятков пар оснований от фактического сайта связывания белка. Плотность меток в сайтах связывания является хорошим индикатором аффинности связывания белок-ДНК [14] , что облегчает количественную оценку и сравнение аффинности связывания белка с различными сайтами ДНК. [15]
Ассоциация ДНК STAT1: ChIP-seq использовали для изучения мишеней STAT1 в клетках HeLa S3, которые являются клонами линии HeLa и используются для анализа клеточных популяций. [16] Затем эффективность ChIP-seq сравнивали с альтернативными методами взаимодействия белок-ДНК, такими как ChIP-PCR и ChIP-чип. [17]
Нуклеосомная архитектура промоторов: с помощью ChIP-seq было установлено, что дрожжевые гены, по-видимому, имеют минимальную безнуклеосомную промоторную область длиной 150 п.о., в которой РНК-полимераза может инициировать транскрипцию. [18]
Консервация факторов транскрипции: ChIP-seq использовали для сравнения консервативности ТФ в тканях переднего мозга и сердца у эмбриональных мышей. Авторы идентифицировали и подтвердили функциональность энхансеров транскрипции в сердце и определили, что энхансеры транскрипции для сердца менее консервативны, чем энхансеры для переднего мозга на той же стадии развития. [19]
Полногеномное ChIP-секвенирование: ChIP-секвенирование было завершено на черве C. elegans для изучения полногеномных сайтов связывания 22 факторов транскрипции. До 20% аннотированных генов-кандидатов были отнесены к транскрипционным факторам. Несколько факторов транскрипции были отнесены к некодирующим областям РНК и могут зависеть от переменных развития или окружающей среды. Также были идентифицированы функции некоторых транскрипционных факторов. Некоторые из факторов транскрипции регулируют гены, которые контролируют другие факторы транскрипции. Эти гены не регулируются другими факторами. Большинство факторов транскрипции служат как мишенями, так и регуляторами других факторов, демонстрируя сеть регуляции. [20]
Предполагаемая регуляторная сеть: было показано, что сигнал ChIP-seq модификации гистонов в большей степени коррелирует с мотивами транскрипционных факторов на промоторах по сравнению с уровнем РНК. [21] Таким образом, автор предположил, что использование модификации гистонов ChIP-seq обеспечит более надежный вывод о генно-регуляторных сетях по сравнению с другими методами, основанными на экспрессии.
ChIP-seq предлагает альтернативу ChIP-чипу. Экспериментальные данные ChIP-seq STAT1 имеют высокую степень сходства с результатами, полученными с помощью ChIP-чипа для экспериментов того же типа, с более чем 64% пиков в общих геномных областях. Поскольку данные представляют собой считывание последовательностей, ChIP-seq предлагает конвейер быстрого анализа при условии, что высококачественная последовательность генома доступна для сопоставления чтения и в геноме нет повторяющегося содержимого, которое запутывает процесс сопоставления. ChIP-seq также потенциально может обнаруживать мутации в последовательностях сайтов связывания, что может напрямую поддерживать любые наблюдаемые изменения в связывании белков и регуляции генов.
Как и многие подходы к высокопроизводительному секвенированию, ChIP-seq генерирует чрезвычайно большие наборы данных, для которых требуются соответствующие методы компьютерного анализа. Для прогнозирования сайтов связывания ДНК на основе данных подсчета чтений ChIP-seq были разработаны методы вызова пиков . Одним из наиболее популярных методов [ нужна ссылка ] является MACS, который эмпирически моделирует размер сдвига тегов ChIP-Seq и использует его для улучшения пространственного разрешения прогнозируемых сайтов связывания. [22] MACS оптимизирован для пиков с более высоким разрешением, в то время как другой популярный алгоритм, SICER, запрограммирован на вызов более широких пиков, охватывающих от килобаз до мегабаз, для поиска более широких доменов хроматина. SICER более полезен для меток гистонов, охватывающих тела генов. Более строгий математический метод BCP (Bayesian Change Point) может использоваться как для острых, так и для широких пиков с более высокой скоростью вычислений, [23] см. сравнительное сравнение инструментов вызова пиков ChIP-seq, проведенное Thomas et al. (2017). [24]
Другая актуальная вычислительная проблема - это дифференциальный вызов пиков, который выявляет существенные различия в двух сигналах ChIP-seq из разных биологических условий. Вызывающие дифференциальные пики сегментируют два сигнала ChIP-seq и идентифицируют дифференциальные пики с помощью скрытых марковских моделей . Примерами двухэтапных дифференциальных пиковых вызовов являются ChIPDiff [25] и ODIN. [26]
Чтобы уменьшить количество ложных сайтов в результате ChIP-seq, можно использовать несколько экспериментальных контролей для обнаружения сайтов связывания в эксперименте по IP. Bay2Ctrls использует байесовскую модель для интеграции контроля ввода ДНК для IP, ложного IP и соответствующего контроля ввода ДНК для прогнозирования сайтов связывания на основе IP. [27] Этот подход особенно эффективен для сложных образцов, таких как целые модельные организмы. Кроме того, анализ показывает, что для сложных образцов контрольные образцы IP существенно превосходят контрольные образцы, вводимые ДНК, вероятно, из-за активных геномов образцов. [27]