В генетике дробовик — это метод, используемый для секвенирования случайных цепей ДНК . Он назван по аналогии с быстро расширяющейся квазислучайной группировкой выстрелов дробовика .
Метод обрыва цепи секвенирования ДНК («секвенирование по Сэнгеру») может быть использован только для коротких цепей ДНК длиной от 100 до 1000 пар оснований . Из-за этого ограничения по размеру более длинные последовательности подразделяются на более мелкие фрагменты, которые могут быть секвенированы отдельно, и эти последовательности собираются для получения общей последовательности.
В дробовом секвенировании [1] [2] ДНК разбивается случайным образом на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения прочтений . Множественные перекрывающиеся прочтения для целевой ДНК получаются путем выполнения нескольких раундов этой фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы различных прочтений для сборки их в непрерывную последовательность. [1]
Метод дробового секвенирования был одной из предшественников технологий, позволивших проводить секвенирование всего генома .
Например, рассмотрим следующие два раунда быстрого прочтения:
В этом крайне упрощенном примере ни одно из прочтений не покрывает всю длину исходной последовательности, но четыре прочтения можно собрать в исходную последовательность, используя перекрытие их концов для выравнивания и упорядочивания. В действительности этот процесс использует огромные объемы информации, которые изобилуют неоднозначностями и ошибками секвенирования. Сборка сложных геномов дополнительно осложняется большим количеством повторяющихся последовательностей , что означает, что похожие короткие прочтения могут происходить из совершенно разных частей последовательности.
Для преодоления этих трудностей и точной сборки последовательности необходимо множество перекрывающихся прочтений для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека » большая часть генома человека была секвенирована с покрытием 12X или большим ; то есть каждое основание в конечной последовательности присутствовало в среднем в 12 различных прочтениях. Тем не менее, современные методы не смогли выделить или собрать надежную последовательность примерно для 1% ( эухроматического ) генома человека по состоянию на 2004 год. [3]
Метод дробового секвенирования всего генома для небольших (от 4000 до 7000 пар оснований) геномов был впервые предложен в 1979 году. [1] Первым геномом, секвенированным методом дробового секвенирования, был геном вируса мозаики цветной капусты , опубликованный в 1981 году. [4] [5]
Более широкое применение получило выгоду от секвенирования парных концов , в просторечии известного как секвенирование из двухствольного дробовика . Поскольку проекты по секвенированию начали охватывать более длинные и сложные последовательности ДНК, многочисленные группы начали понимать, что полезную информацию можно получить, секвенировав оба конца фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более обременительным, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности были ориентированы в противоположных направлениях и находились на расстоянии примерно длины фрагмента друг от друга, было ценным для реконструкции последовательности исходного целевого фрагмента.
История . Первое опубликованное описание использования парных концов было в 1990 году [6] как часть секвенирования человеческого локуса HGPRT , хотя использование парных концов было ограничено закрытием пробелов после применения традиционного подхода дробовика секвенирования. Первое теоретическое описание чистой стратегии парного секвенирования концов, предполагающей фрагменты постоянной длины, было в 1991 году. [7] В то время существовал консенсус сообщества, что оптимальная длина фрагмента для парного секвенирования концов будет в три раза больше длины считываемой последовательности. В 1995 году Роуч и др. [8] представили новшество использования фрагментов различных размеров и продемонстрировали, что чистая стратегия парного секвенирования концов будет возможна на больших мишенях. Впоследствии эта стратегия была принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 году [9] , а затем компанией Celera Genomics для секвенирования генома Drosophila melanogaster (плодовой мушки) в 2000 году [10] , а затем и генома человека.
Чтобы применить эту стратегию, высокомолекулярная цепь ДНК разрезается на случайные фрагменты, выбранные по размеру (обычно 2, 10, 50 и 150 кб), и клонируется в соответствующий вектор . Затем клоны секвенируются с обоих концов с использованием метода терминации цепи, что дает две короткие последовательности. Каждая последовательность называется конечным считыванием или считыванием 1 и считыванием 2 , а два считывания из одного и того же клона называются парными парами . Поскольку метод терминации цепи обычно может производить считывания длиной только от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары парных пар будут редко перекрываться.
Исходная последовательность реконструируется из прочтений с помощью программного обеспечения для сборки последовательностей . Сначала перекрывающиеся прочтения собираются в более длинные составные последовательности, известные как контиги . Контиги могут быть связаны вместе в каркасы , следуя связям между парами сопряжения. Расстояние между контигами может быть выведено из положений пар сопряжения, если известна средняя длина фрагмента библиотеки и имеет узкое окно отклонения. В зависимости от размера зазора между контигами могут использоваться различные методы для поиска последовательности в зазорах. Если зазор небольшой (5-20 кб), то требуется использование полимеразной цепной реакции (ПЦР) для амплификации области с последующим секвенированием. Если зазор большой (>20 кб), то большой фрагмент клонируется в специальных векторах, таких как бактериальные искусственные хромосомы (BAC), с последующим секвенированием вектора.
Сторонники этого подхода утверждают, что возможно секвенировать весь геном сразу, используя большие массивы секвенаторов, что делает весь процесс намного более эффективным, чем более традиционные подходы. Противники утверждают, что хотя эта техника быстро секвенирует большие области ДНК, ее способность правильно связывать эти области сомнительна, особенно для эукариотических геномов с повторяющимися областями. Поскольку программы сборки последовательностей становятся более сложными, а вычислительная мощность дешевеет, это ограничение может быть преодолено. [11]
Покрытие (глубина прочтения или глубина) — это среднее число прочтений, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать из длины исходного генома ( G ), числа прочтений ( N ) и средней длины прочтения ( L ) как . Например, гипотетический геном с 2000 парами оснований, реконструированный из 8 прочтений со средней длиной 500 нуклеотидов, будет иметь 2-кратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент генома, покрытый прочтениями (иногда также называемый покрытием). Высокое покрытие при дробовом секвенировании желательно, поскольку оно может преодолеть ошибки в вызове и сборке оснований . Предмет теории секвенирования ДНК рассматривает взаимосвязи таких величин.
Иногда проводится различие между покрытием последовательностей и физическим покрытием . Покрытие последовательностей — это среднее количество раз, когда база считывается (как описано выше). Физическое покрытие — это среднее количество раз, когда база считывается или охватывается парными чтениями. [12]
Хотя дробовик-секвенирование теоретически может быть применено к геному любого размера, его прямое применение к секвенированию больших геномов (например, человеческого генома ) было ограничено до конца 1990-х годов, когда технологические достижения сделали практичной обработку огромных объемов сложных данных, вовлеченных в процесс. [13] Исторически считалось, что дробовик-секвенирование всего генома ограничено как огромным размером больших геномов, так и сложностью, добавляемой высоким процентом повторяющейся ДНК (более 50% для человеческого генома), присутствующей в больших геномах. [14] Не было широко принято, что дробовик-секвенирование всего генома большого генома даст надежные данные. По этим причинам пришлось использовать другие стратегии, которые снизили вычислительную нагрузку сборки последовательности, прежде чем было выполнено дробовик-секвенирование. [14] При иерархическом секвенировании, также известном как секвенирование сверху вниз, физическая карта генома с низким разрешением создается до фактического секвенирования. Из этой карты для секвенирования выбирается минимальное количество фрагментов, которые покрывают всю хромосому. [15] Таким образом, требуется минимальный объем высокопроизводительного секвенирования и сборки.
Амплифицированный геном сначала разрезается на более крупные части (50-200 кб) и клонируется в бактериальный хозяин с использованием BAC или искусственных хромосом, полученных из P1 (PAC). Поскольку множественные копии генома разрезались случайным образом, фрагменты, содержащиеся в этих клонах, имеют разные концы, и при достаточном покрытии (см. раздел выше) теоретически возможно найти наименьший возможный каркас BAC - контигов , который покрывает весь геном. Этот каркас называется минимальным путем тайлинга .
После того, как путь мозаики найден, BAC, которые формируют этот путь, случайным образом разрезаются на более мелкие фрагменты и могут быть секвенированы с использованием метода дробовика в меньшем масштабе. [16]
Хотя полные последовательности контигов BAC неизвестны, их ориентация относительно друг друга известна. Существует несколько методов для выведения этого порядка и выбора BAC, которые составляют мозаичный путь. Общая стратегия включает в себя определение положений клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для формирования непрерывного каркаса, который покрывает всю интересующую область. Порядок клонов выводится путем определения способа, которым они перекрываются. [17] Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченый зонд, содержащий сайт с маркировкой последовательности (STS), может быть гибридизирован на микрочипе, на котором печатаются клоны. [17] Таким образом, идентифицируются все клоны, которые содержат определенную последовательность в геноме. Затем конец одного из этих клонов можно секвенировать, чтобы получить новый зонд, и процесс повторяется в методе, называемом прогулка по хромосоме.
В качестве альтернативы библиотека BAC может быть подвергнута рестрикции . Предполагается, что два клона, имеющие несколько общих размеров фрагментов, перекрываются, поскольку они содержат несколько схоже расположенных сайтов рестрикции. [17] Этот метод геномного картирования называется рестрикцией или BAC-фингерпринтингом, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне. После того, как перекрытие между клонами найдено и их порядок относительно известного генома, каркас минимального подмножества этих контигов, который охватывает весь геном, секвенируется методом дробовика. [15]
Поскольку иерархическое секвенирование методом дробовика сначала предполагает создание карты генома с низким разрешением, оно медленнее, чем секвенирование методом дробовика всего генома, но в меньшей степени опирается на компьютерные алгоритмы, чем секвенирование методом дробовика всего генома. Однако процесс создания обширной библиотеки BAC и выбор пути тайлинга делают иерархическое секвенирование методом дробовика медленным и трудоемким. Теперь, когда технология доступна и надежность данных продемонстрирована, [14] скорость и экономическая эффективность секвенирования методом дробовика всего генома сделали его основным методом секвенирования генома.
Классическое секвенирование методом дробовика было основано на методе секвенирования Сэнгера: это была самая передовая техника секвенирования геномов примерно с 1995 по 2005 год. Стратегия дробовика применяется и сегодня, однако с использованием других технологий секвенирования, таких как секвенирование с коротким считыванием и секвенирование с длинным считыванием .
Секвенирование с коротким считыванием или «следующего поколения» производит более короткие считывания (где-то от 25 до 500 п.н.), но многие сотни тысяч или миллионы считываний за относительно короткое время (порядка дня). [18] Это приводит к высокому покрытию, но процесс сборки гораздо более интенсивен в вычислительном плане. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования целого генома. [19]
Наличие прочтений длиной 400-500 пар оснований достаточно для определения вида или штамма организма, откуда взята ДНК, при условии, что его геном уже известен, с помощью, например, программного обеспечения таксономического классификатора на основе k -меров . С миллионами прочтений из следующего поколения секвенирования образца окружающей среды можно получить полный обзор любого сложного микробиома с тысячами видов, например, кишечной флоры . Преимущества перед секвенированием ампликона 16S рРНК : отсутствие ограничения бактериями; классификация на уровне штамма, когда секвенирование ампликона получает только род; и возможность извлекать целые гены и определять их функцию как часть метагенома. [20] Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования . [21] Однако оно подчеркивает проблему загрязнения образца или конвейера секвенирования. [22]
В статье использованы материалы из общедоступного справочника NCBI Handbook. Национальный центр биотехнологической информации .