В генетике дробовое секвенирование — это метод, используемый для секвенирования случайных цепей ДНК . Он назван по аналогии с быстро расширяющейся квазислучайной группой выстрелов дробовика .
Метод секвенирования ДНК с обрывом цепи («секвенирование по Сэнгеру») можно использовать только для коротких цепей ДНК длиной от 100 до 1000 пар оснований . Из-за этого ограничения размера более длинные последовательности подразделяются на более мелкие фрагменты, которые можно секвенировать отдельно, и эти последовательности собираются в общую последовательность.
При дробовом секвенировании [1] [2] ДНК случайным образом разбивается на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения считываний . Множественные перекрывающиеся прочтения целевой ДНК получают путем выполнения нескольких раундов фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы разных чтений, чтобы собрать их в непрерывную последовательность. [1]
Секвенирование методом дробовика было одной из технологий-предшественников, которая обеспечила возможность секвенирования всего генома .
Например, рассмотрим следующие два раунда чтения дробовика:
В этом чрезвычайно упрощенном примере ни одно из прочтений не покрывает всю длину исходной последовательности, но четыре прочтения можно собрать в исходную последовательность, используя перекрытие их концов для их выравнивания и упорядочения. На самом деле этот процесс использует огромные объемы информации, изобилующей двусмысленностями и ошибками последовательности. Сборка сложных геномов дополнительно осложняется большим количеством повторяющихся последовательностей , а это означает, что одинаковые короткие чтения могут происходить из совершенно разных частей последовательности.
Чтобы преодолеть эти трудности и точно собрать последовательность, необходимо множество перекрывающихся прочтений для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека» большая часть человеческого генома была секвенирована с охватом 12X или выше ; то есть каждое основание в конечной последовательности присутствовало в среднем в 12 различных прочтениях. Несмотря на это, современные методы не смогли выделить или собрать надежную последовательность примерно для 1% ( эухроматического ) генома человека по состоянию на 2004 год. [3]
Полногеномное дробовое секвенирование для небольших (от 4000 до 7000 пар оснований) геномов было впервые предложено в 1979 году. [1] Первым геномом, секвенированным дробовым секвенированием, был геном вируса мозаики цветной капусты , опубликованный в 1981 году. [4] [5]
Более широкое применение выиграло от попарного секвенирования концов , известного в просторечии как секвенирование двуствольного дробовика . Когда проекты секвенирования начали охватывать более длинные и сложные последовательности ДНК, многие группы начали понимать, что полезная информация может быть получена путем секвенирования обоих концов фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более громоздким, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности ориентированы в противоположных направлениях и имеют длину примерно на один фрагмент, отделенный от каждого другой был ценен для восстановления последовательности исходного целевого фрагмента.
История . Первое опубликованное описание использования парных концов было в 1990 году [6] как часть секвенирования локуса HGPRT человека , хотя использование парных концов ограничивалось закрытием пробелов после применения традиционного подхода секвенирования дробовиком. Первое теоретическое описание чистой стратегии секвенирования попарных концов, предполагающей фрагменты постоянной длины, было сделано в 1991 году. [7] В то время в сообществе существовал консенсус, что оптимальная длина фрагмента для секвенирования попарных концов должна в три раза превышать длину считывания последовательности. . В 1995 году Роуч и др. [8] представили инновацию использования фрагментов разного размера и продемонстрировали, что стратегия чистого попарного секвенирования концов возможна на больших мишенях. Впоследствии эта стратегия была принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 году [9] , а затем компанией Celera Genomics для секвенирования генома Drosophila melanogaster (дрозофилы) в 2000 году [10]. а затем и геном человека.
Чтобы применить эту стратегию, цепь ДНК с высокой молекулярной массой разрезается на случайные фрагменты, выбираются по размеру (обычно 2, 10, 50 и 150 т.п.н.) и клонируются в соответствующий вектор . Затем клоны секвенируют с обоих концов, используя метод обрыва цепи, в результате чего получают две короткие последовательности. Каждая последовательность называется конечным чтением или чтением 1 и чтением 2, а два чтения из одного и того же клона называются парами сопряжения . Поскольку метод обрыва цепи обычно может производить чтения только длиной от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары пар редко перекрываются.
Исходная последовательность реконструируется на основе считываний с использованием программного обеспечения для сборки последовательности . Во-первых, перекрывающиеся чтения собираются в более длинные составные последовательности, известные как контиги . Контиги можно объединять в каркасы, следуя связям между парами партнеров. Расстояние между контигами можно определить по положениям парных пар, если известна средняя длина фрагмента библиотеки и имеет узкое окно отклонения. В зависимости от размера промежутка между контигами можно использовать разные методы нахождения последовательности в промежутках. Если разрыв небольшой (5-20 КБ), то для амплификации региона необходимо использовать полимеразную цепную реакцию (ПЦР) с последующим секвенированием. Если разрыв велик (> 20 КБ), то большой фрагмент клонируют в специальные векторы, такие как бактериальные искусственные хромосомы (BAC), с последующим секвенированием вектора.
Сторонники этого подхода утверждают, что можно секвенировать весь геном сразу, используя большие массивы секвенаторов, что делает весь процесс намного более эффективным, чем более традиционные подходы. Противники утверждают, что, хотя этот метод позволяет быстро секвенировать большие участки ДНК, его способность правильно связывать эти участки сомнительна, особенно для геномов эукариот с повторяющимися участками. Поскольку программы сборки последовательностей становятся более сложными, а вычислительная мощность дешевеет, возможно, появится возможность преодолеть это ограничение. [ нужна цитата ]
Покрытие (глубина чтения или глубина) — это среднее количество прочтений, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать на основе длины исходного генома ( G ), количества чтений ( N ) и средней длины чтения ( L ) как . Например, гипотетический геном с 2000 парами оснований, реконструированный из 8 чтений со средней длиной 500 нуклеотидов, будет иметь 2-кратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент покрытия генома чтениями (иногда его также называют покрытием). Желателен широкий охват последовательности дробовиков, поскольку это может устранить ошибки в вызове и сборке баз. Предмет теории секвенирования ДНК касается взаимоотношений таких величин.
Иногда проводится различие между последовательным покрытием и физическим покрытием . Покрытие последовательности — это среднее количество чтений базы (как описано выше). Физическое покрытие — это среднее количество раз, когда база читается или покрывается парными чтениями. [11]
Хотя метод секвенирования теоретически может быть применен к геному любого размера, его прямое применение для секвенирования больших геномов (например, человеческого генома ) было ограничено до конца 1990-х годов, когда технологические достижения сделали практически возможным обработку огромных количеств. сложных данных, участвующих в процессе. [12] Исторически считалось, что полногеномное секвенирование ограничено как огромным размером больших геномов, так и сложностью, добавляемой высоким процентом повторяющейся ДНК (более 50% для генома человека), присутствующей в больших геномах. [13] Не было широко признано, что полногеномная последовательность большого генома предоставит надежные данные. По этим причинам перед выполнением дробового секвенирования пришлось использовать другие стратегии, которые снизили вычислительную нагрузку при сборке последовательности. [13] При иерархическом секвенировании, также известном как секвенирование сверху вниз, перед фактическим секвенированием создается физическая карта генома с низким разрешением. Из этой карты для секвенирования отбирается минимальное количество фрагментов, охватывающих всю хромосому. [14] Таким образом, требуется минимальное количество высокопроизводительного секвенирования и сборки.
Амплифицированный геном сначала разрезается на более крупные части (50–200 КБ) и клонируется в бактериального хозяина с использованием BAC или искусственных хромосом, полученных из P1 (PAC). Поскольку несколько копий генома были вырезаны случайным образом, фрагменты, содержащиеся в этих клонах, имеют разные концы, и при достаточном покрытии (см. раздел выше) теоретически возможно найти наименьший возможный каркас из контигов BAC , который покрывает весь геном. Этот каркас называется минимальным путем мозаики .
Как только путь мозаики найден, BAC, образующие этот путь, случайным образом разбиваются на более мелкие фрагменты и могут быть секвенированы с использованием метода дробовика в меньшем масштабе. [15]
Хотя полные последовательности контигов BAC неизвестны, известна их ориентация друг относительно друга. Существует несколько методов определения этого порядка и выбора BAC, составляющих путь мозаики. Общая стратегия включает в себя определение положения клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для формирования непрерывного каркаса, охватывающего всю интересующую область. Порядок клонов определяется путем определения способа их перекрытия. [16] Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченный зонд, содержащий сайт с меченой последовательностью (STS), можно гибридизовать на микроматрице, на которой печатаются клоны. [16] Таким образом идентифицируются все клоны, содержащие определенную последовательность в геноме. Конец одного из этих клонов затем можно секвенировать, чтобы получить новый зонд, и процесс повторить с помощью метода, называемого хромосомным блужданием.
Альтернативно, библиотека BAC может быть обработана ограничениями . Предполагается, что два клона, которые имеют несколько общих размеров фрагментов, перекрываются, поскольку они содержат несколько общих сайтов рестрикции, расположенных одинаково. [16] Этот метод геномного картирования называется рестрикцией или BAC-фингерпринтингом, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне. Как только обнаружено перекрытие между клонами и известен их порядок относительно генома, каркас минимального подмножества этих контигов, который покрывает весь геном, секвенируется методом дробовика. [14]
Поскольку иерархическое дробовое секвенирование предполагает сначала создание карты генома с низким разрешением, оно медленнее, чем полногеномное дробовое секвенирование, но в меньшей степени зависит от компьютерных алгоритмов, чем полногеномное дробовое секвенирование. Однако процесс создания обширной библиотеки BAC и выбора пути мозаики делает иерархическое секвенирование дробовика медленным и трудоемким. Теперь, когда технология доступна и надежность данных продемонстрирована, [13] скорость и экономическая эффективность полногеномного секвенирования сделали его основным методом секвенирования генома.
Классическое секвенирование методом дробовика было основано на методе секвенирования Сэнгера: это был самый передовой метод секвенирования геномов примерно с 1995–2005 годов. Стратегия дробовика применяется и сегодня, однако с использованием других технологий секвенирования, таких как секвенирование короткого считывания и секвенирование длинного считывания .
Секвенирование короткого чтения или секвенирование «следующего поколения» дает более короткие чтения (от 25 до 500 пар оснований), но многие сотни тысяч или миллионы прочтений за относительно короткое время (порядка дня). [17] Это приводит к более высокому покрытию, но процесс сборки требует гораздо больше вычислительных затрат. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования всего генома. [18]
Наличие прочтений длиной 400-500 пар оснований достаточно для определения вида или штамма организма, из которого происходит ДНК, при условии, что его геном уже известен, используя, например, программное обеспечение таксономического классификатора на основе k -меров . С помощью миллионов считываний секвенирования нового поколения образцов окружающей среды можно получить полный обзор любого сложного микробиома с тысячами видов, например кишечной флоры . Преимущества по сравнению с секвенированием ампликона 16S рРНК : не ограничиваться бактериями; классификация на уровне штамма, при которой секвенирование ампликонов позволяет получить только род; и возможность извлечь целые гены и указать их функцию как часть метагенома. [19] Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования . [20] Однако это подчеркивает проблему загрязнения образца или конвейера секвенирования. [21]
Эта статья включает общедоступные материалы из Справочника NCBI. Национальный центр биотехнологической информации .