stringtranslate.com

Последовательность дробовика

В генетике дробовое секвенирование — это метод, используемый для секвенирования случайных цепей ДНК . Он назван по аналогии с быстро расширяющейся квазислучайной группой выстрелов дробовика .

Метод секвенирования ДНК с обрывом цепи («секвенирование по Сэнгеру») можно использовать только для коротких цепей ДНК длиной от 100 до 1000 пар оснований . Из-за этого ограничения размера более длинные последовательности подразделяются на более мелкие фрагменты, которые можно секвенировать отдельно, и эти последовательности собираются в общую последовательность.

При дробовом секвенировании [1] [2] ДНК случайным образом разбивается на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения считываний . Множественные перекрывающиеся прочтения целевой ДНК получают путем выполнения нескольких раундов фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы разных чтений, чтобы собрать их в непрерывную последовательность. [1]

Секвенирование методом дробовика было одной из технологий-предшественников, которая обеспечила возможность секвенирования всего генома .

Пример

Например, рассмотрим следующие два раунда чтения дробовика:

В этом чрезвычайно упрощенном примере ни одно из прочтений не покрывает всю длину исходной последовательности, но четыре прочтения можно собрать в исходную последовательность, используя перекрытие их концов для их выравнивания и упорядочения. На самом деле этот процесс использует огромные объемы информации, изобилующей двусмысленностями и ошибками последовательности. Сборка сложных геномов дополнительно осложняется большим количеством повторяющихся последовательностей , а это означает, что одинаковые короткие чтения могут происходить из совершенно разных частей последовательности.

Чтобы преодолеть эти трудности и точно собрать последовательность, необходимо множество перекрывающихся прочтений для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека» большая часть человеческого генома была секвенирована с охватом 12X или выше ; то есть каждое основание в конечной последовательности присутствовало в среднем в 12 различных прочтениях. Несмотря на это, современные методы не смогли выделить или собрать надежную последовательность примерно для 1% ( эухроматического ) генома человека по состоянию на 2004 год. [3]

Полногеномное секвенирование

История

Полногеномное дробовое секвенирование для небольших (от 4000 до 7000 пар оснований) геномов было впервые предложено в 1979 году. [1] Первым геномом, секвенированным дробовым секвенированием, был геном вируса мозаики цветной капусты , опубликованный в 1981 году. [4] [5]

Парное секвенирование

Более широкое применение выиграло от попарного секвенирования концов , известного в просторечии как секвенирование двуствольного дробовика . Когда проекты секвенирования начали охватывать более длинные и сложные последовательности ДНК, многие группы начали понимать, что полезная информация может быть получена путем секвенирования обоих концов фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более громоздким, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности ориентированы в противоположных направлениях и имеют длину примерно на один фрагмент, отделенный от каждого другой был ценен для восстановления последовательности исходного целевого фрагмента.

История . Первое опубликованное описание использования парных концов было в 1990 году [6] как часть секвенирования локуса HGPRT человека , хотя использование парных концов ограничивалось закрытием пробелов после применения традиционного подхода секвенирования дробовиком. Первое теоретическое описание чистой стратегии секвенирования попарных концов, предполагающей фрагменты постоянной длины, было сделано в 1991 году. [7] В то время в сообществе существовал консенсус, что оптимальная длина фрагмента для секвенирования попарных концов должна в три раза превышать длину считывания последовательности. . В 1995 году Роуч и др. [8] представили инновацию использования фрагментов разного размера и продемонстрировали, что стратегия чистого попарного секвенирования концов возможна на больших мишенях. Впоследствии эта стратегия была принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 году [9] , а затем компанией Celera Genomics для секвенирования генома Drosophila melanogaster (дрозофилы) в 2000 году [10]. а затем и геном человека.

Подход

Чтобы применить эту стратегию, цепь ДНК с высокой молекулярной массой разрезается на случайные фрагменты, выбираются по размеру (обычно 2, 10, 50 и 150 т.п.н.) и клонируются в соответствующий вектор . Затем клоны секвенируют с обоих концов, используя метод обрыва цепи, в результате чего получают две короткие последовательности. Каждая последовательность называется конечным чтением или чтением 1 и чтением 2, а два чтения из одного и того же клона называются парами сопряжения . Поскольку метод обрыва цепи обычно может производить чтения только длиной от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары пар редко перекрываются.

Сборка

Исходная последовательность реконструируется на основе считываний с использованием программного обеспечения для сборки последовательности . Во-первых, перекрывающиеся чтения собираются в более длинные составные последовательности, известные как контиги . Контиги можно объединять в каркасы, следуя связям между парами партнеров. Расстояние между контигами можно определить по положениям парных пар, если известна средняя длина фрагмента библиотеки и имеет узкое окно отклонения. В зависимости от размера промежутка между контигами можно использовать разные методы нахождения последовательности в промежутках. Если разрыв небольшой (5-20 КБ), то для амплификации региона необходимо использовать полимеразную цепную реакцию (ПЦР) с последующим секвенированием. Если разрыв велик (> 20 КБ), то большой фрагмент клонируют в специальные векторы, такие как бактериальные искусственные хромосомы (BAC), с последующим секвенированием вектора.

За и против

Сторонники этого подхода утверждают, что можно секвенировать весь геном сразу, используя большие массивы секвенаторов, что делает весь процесс намного более эффективным, чем более традиционные подходы. Противники утверждают, что, хотя этот метод позволяет быстро секвенировать большие участки ДНК, его способность правильно связывать эти участки сомнительна, особенно для геномов эукариот с повторяющимися участками. Поскольку программы сборки последовательностей становятся более сложными, а вычислительная мощность дешевеет, возможно, появится возможность преодолеть это ограничение. [ нужна цитата ]

Покрытие

Покрытие (глубина чтения или глубина) — это среднее количество прочтений, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать на основе длины исходного генома ( G ), количества чтений ( N ) и средней длины чтения ( L ) как . Например, гипотетический геном с 2000 парами оснований, реконструированный из 8 чтений со средней длиной 500 нуклеотидов, будет иметь 2-кратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент покрытия генома чтениями (иногда его также называют покрытием). Желателен широкий охват последовательности дробовиков, поскольку это может устранить ошибки в вызове и сборке баз. Предмет теории секвенирования ДНК касается взаимоотношений таких величин.

Иногда проводится различие между последовательным покрытием и физическим покрытием . Покрытие последовательности — это среднее количество чтений базы (как описано выше). Физическое покрытие — это среднее количество раз, когда база читается или покрывается парными чтениями. [11]

Иерархическая последовательность дробовика

При полногеномном секвенировании (вверху) весь геном случайным образом разрезается на небольшие фрагменты (подходящего размера для секвенирования), а затем снова собирается. При иерархическом секвенировании (внизу) геном сначала разбивается на более крупные сегменты. После того, как порядок этих сегментов определен, их далее разрезают на фрагменты подходящего размера для секвенирования.

Хотя метод секвенирования теоретически может быть применен к геному любого размера, его прямое применение для секвенирования больших геномов (например, человеческого генома ) было ограничено до конца 1990-х годов, когда технологические достижения сделали практически возможным обработку огромных количеств. сложных данных, участвующих в процессе. [12] Исторически считалось, что полногеномное секвенирование ограничено как огромным размером больших геномов, так и сложностью, добавляемой высоким процентом повторяющейся ДНК (более 50% для генома человека), присутствующей в больших геномах. [13] Не было широко признано, что полногеномная последовательность большого генома предоставит надежные данные. По этим причинам перед выполнением дробового секвенирования пришлось использовать другие стратегии, которые снизили вычислительную нагрузку при сборке последовательности. [13] При иерархическом секвенировании, также известном как секвенирование сверху вниз, перед фактическим секвенированием создается физическая карта генома с низким разрешением. Из этой карты для секвенирования отбирается минимальное количество фрагментов, охватывающих всю хромосому. [14] Таким образом, требуется минимальное количество высокопроизводительного секвенирования и сборки.

Амплифицированный геном сначала разрезается на более крупные части (50–200 КБ) и клонируется в бактериального хозяина с использованием BAC или искусственных хромосом, полученных из P1 (PAC). Поскольку несколько копий генома были вырезаны случайным образом, фрагменты, содержащиеся в этих клонах, имеют разные концы, и при достаточном покрытии (см. раздел выше) теоретически возможно найти наименьший возможный каркас из контигов BAC , который покрывает весь геном. Этот каркас называется минимальным путем мозаики .

Контиг BAC, который покрывает всю интересующую область генома, образует путь мозаики.

Как только путь мозаики найден, BAC, образующие этот путь, случайным образом разбиваются на более мелкие фрагменты и могут быть секвенированы с использованием метода дробовика в меньшем масштабе. [15]

Хотя полные последовательности контигов BAC неизвестны, известна их ориентация друг относительно друга. Существует несколько методов определения этого порядка и выбора BAC, составляющих путь мозаики. Общая стратегия включает в себя определение положения клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для формирования непрерывного каркаса, охватывающего всю интересующую область. Порядок клонов определяется путем определения способа их перекрытия. [16] Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченный зонд, содержащий сайт с меченой последовательностью (STS), можно гибридизовать на микроматрице, на которой печатаются клоны. [16] Таким образом идентифицируются все клоны, содержащие определенную последовательность в геноме. Конец одного из этих клонов затем можно секвенировать, чтобы получить новый зонд, и процесс повторить с помощью метода, называемого хромосомным блужданием.

Альтернативно, библиотека BAC может быть обработана ограничениями . Предполагается, что два клона, которые имеют несколько общих размеров фрагментов, перекрываются, поскольку они содержат несколько общих сайтов рестрикции, расположенных одинаково. [16] Этот метод геномного картирования называется рестрикцией или BAC-фингерпринтингом, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне. Как только обнаружено перекрытие между клонами и известен их порядок относительно генома, каркас минимального подмножества этих контигов, который покрывает весь геном, секвенируется методом дробовика. [14]

Поскольку иерархическое дробовое секвенирование предполагает сначала создание карты генома с низким разрешением, оно медленнее, чем полногеномное дробовое секвенирование, но в меньшей степени зависит от компьютерных алгоритмов, чем полногеномное дробовое секвенирование. Однако процесс создания обширной библиотеки BAC и выбора пути мозаики делает иерархическое секвенирование дробовика медленным и трудоемким. Теперь, когда технология доступна и надежность данных продемонстрирована, [13] скорость и экономическая эффективность полногеномного секвенирования сделали его основным методом секвенирования генома.

Новые технологии секвенирования

Классическое секвенирование методом дробовика было основано на методе секвенирования Сэнгера: это был самый передовой метод секвенирования геномов примерно с 1995–2005 годов. Стратегия дробовика применяется и сегодня, однако с использованием других технологий секвенирования, таких как секвенирование короткого считывания и секвенирование длинного считывания .

Секвенирование короткого чтения или секвенирование «следующего поколения» дает более короткие чтения (от 25 до 500 пар оснований), но многие сотни тысяч или миллионы прочтений за относительно короткое время (порядка дня). [17] Это приводит к более высокому покрытию, но процесс сборки требует гораздо больше вычислительных затрат. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования всего генома. [18]

Метагеномное дробовое секвенирование

Наличие прочтений длиной 400-500 пар оснований достаточно для определения вида или штамма организма, из которого происходит ДНК, при условии, что его геном уже известен, используя, например, программное обеспечение таксономического классификатора на основе k -меров . С помощью миллионов считываний секвенирования нового поколения образцов окружающей среды можно получить полный обзор любого сложного микробиома с тысячами видов, например кишечной флоры . Преимущества по сравнению с секвенированием ампликона 16S рРНК : не ограничиваться бактериями; классификация на уровне штамма, при которой секвенирование ампликонов позволяет получить только род; и возможность извлечь целые гены и указать их функцию как часть метагенома. [19] Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования . [20] Однако это подчеркивает проблему загрязнения образца или конвейера секвенирования. [21]

Смотрите также

Рекомендации

  1. ^ abc Стаден, Р. (1979). «Стратегия секвенирования ДНК с использованием компьютерных программ». Исследования нуклеиновых кислот . 6 (7): 2601–2610. дои : 10.1093/нар/6.7.2601. ПМК  327874 . ПМИД  461197.
  2. ^ Андерсон, Стивен (1981). «Секвенирование ДНК дробовиком с использованием клонированных фрагментов ДНКазы I». Исследования нуклеиновых кислот . 9 (13): 3015–3027. дои : 10.1093/нар/9.13.3015. ПМК 327328 . ПМИД  6269069. 
  3. ^ Международный консорциум по секвенированию генома человека (21 октября 2004 г.). «Завершение эухроматической последовательности генома человека». Природа . 431 (7011): 931–945. Бибкод : 2004Natur.431..931H. дои : 10.1038/nature03001 . ПМИД  15496913.
  4. ^ Гарднер, Ричард С.; Ховарт, Алан Дж.; Хан, Питер; Браун-Люди, Марианна; Шеперд, Роберт Дж.; Мессинг, Иоахим (25 июня 1981 г.). «Полная нуклеотидная последовательность инфекционного клона вируса мозаики цветной капусты, полученная методом дробовика M13mp7». Исследования нуклеиновых кислот . 9 (12): 2871–2888. дои : 10.1093/нар/9.12.2871. ISSN  0305-1048. ПМК 326899 . ПМИД  6269062. 
  5. ^ Доктроу, Брайан (19 июля 2016 г.). «Профиль Иоахима Мессинга». Труды Национальной академии наук . 113 (29): 7935–7937. Бибкод : 2016PNAS..113.7935D. дои : 10.1073/pnas.1608857113 . ISSN  0027-8424. ПМЦ 4961156 . ПМИД  27382176. 
  6. ^ Эдвардс, Эл; Каски, К. Томас (август 1991 г.). «Стратегии закрытия случайного секвенирования ДНК». Методы . 3 (1): 41–47. дои : 10.1016/S1046-2023(05)80162-8.
  7. ^ Эдвардс, Эл; Восс, Хартмут; Райс, Питер; Чивителло, Эндрю; Стегеманн, Йозеф; Швагер, Кристиан; Циммерманн, Юрген; Эрфле, Хольгер; Каски, К. Томас; Ансорж, Вильгельм (апрель 1990 г.). «Автоматическое секвенирование ДНК локуса HPRT человека». Геномика . 6 (4): 593–608. дои : 10.1016/0888-7543(90)90493-E. ПМИД  2341149.
  8. ^ Роуч, Джаред С.; Бойзен, Сесилия; Ван, Кай; Худ, Лерой (март 1995 г.). «Попарное секвенирование концов: унифицированный подход к геномному картированию и секвенированию». Геномика . 26 (2): 345–353. дои : 10.1016/0888-7543(95)80219-C. ПМИД  7601461.
  9. ^ Флейшманн, РД; и другие. (1995). «Полногеномное случайное секвенирование и сборка Haemophilus influenzae Rd». Наука . 269 ​​(5223): 496–512. Бибкод : 1995Sci...269..496F. дои : 10.1126/science.7542800. PMID  7542800. S2CID  10423613.
  10. ^ Адамс, доктор медицины; и другие. (2000). «Последовательность генома Drosophila melanogaster» (PDF) . Наука . 287 (5461): 2185–95. Бибкод : 2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . дои : 10.1126/science.287.5461.2185. PMID  10731132. Архивировано из оригинала (PDF) 22 июля 2018 г. Проверено 25 октября 2017 г. 
  11. ^ Мейерсон, М.; Габриэль, С.; Гетц, Г. (2010). «Достижения в понимании геномов рака посредством секвенирования второго поколения». Обзоры природы Генетика . 11 (10): 685–696. дои : 10.1038/nrg2841. PMID  20847746. S2CID  2544266.
  12. ^ Данэм, Ян (9 сентября 2005 г.). «Секвенирование генома». Энциклопедия наук о жизни . doi : 10.1038/npg.els.0005378. ISBN 978-0-470-01617-6.
  13. ^ abc Вентер, Дж. Крейг (9 сентября 2005 г.). «Расширение генома человека: личный взгляд». Энциклопедия наук о жизни . doi : 10.1038/npg.els.0005850. ISBN 978-0-470-01617-6.
  14. ^ Аб Гибсон, Г. и Муза, С.В. Учебник по геномной науке . 3-е изд. стр.84
  15. ^ Боздаг, Сердар; Клоуз, Тимоти Дж.; Лонарди, Стефано (март 2013 г.). «Теоретико-графовый подход к выбору минимального пути замощения на физической карте». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 10 (2): 352–360. дои : 10.1109/tcbb.2013.26. ISSN  1545-5963.
  16. ^ abc Дорогой, Пол Х (9 сентября 2005 г.). «Картирование генома». Энциклопедия наук о жизни . doi : 10.1038/npg.els.0005353. ISBN 978-0-470-01617-6.
  17. ^ Фелькердинг, Карл V; Дамс, Шейла А; Дурчи, Джейкоб Д. (1 апреля 2009 г.). «Секвенирование следующего поколения: от фундаментальных исследований к диагностике». Клиническая химия . 55 (4): 641–658. дои : 10.1373/clinchem.2008.112789 . ПМИД  19246620.
  18. ^ Мецкер, Майкл Л. (январь 2010 г.). «Технологии секвенирования — новое поколение». Обзоры природы Генетика . 11 (1): 31–46. CiteSeerX 10.1.1.719.3885 . дои : 10.1038/nrg2626. PMID  19997069. S2CID  205484500. 
  19. ^ Румпека, Деспойна Д.; Уоллес, Р. Джон; Эскалеттс, Фрэнк; Фотерингем, Ян; Уотсон, Мик (6 марта 2017 г.). «Обзор инструментов биоинформатики для биоразведки на основе данных метагеномных последовательностей». Границы генетики . 8 : 23. дои : 10.3389/fgene.2017.00023 . ПМЦ 5337752 . ПМИД  28321234. 
  20. ^ Гу, Вэй; Миллер, Стив; Чиу, Чарльз Ю. (24 января 2019 г.). «Клиническое метагеномное секвенирование нового поколения для обнаружения патогенов». Ежегодный обзор патологии: механизмы заболевания . 14 (1): 319–338. doi : 10.1146/annurev-pathmechdis-012418-012751. ПМК 6345613 . ПМИД  30355154. 
  21. ^ Тендель, Мэтью; Джеральдо, Патрисио; Гринвуд-Куэнтанс, Керрил Э.; Яо, Джанет; Чиа, Николас; Ханссен, Арлен Д.; Абдель, Мэтью П.; Патель, Робин (июнь 2017 г.). «Влияние загрязнения ДНК в наборах для амплификации всего генома, используемых для метагеномного дробового секвенирования для диагностики инфекций». Журнал клинической микробиологии . 55 (6): 1789–1801. дои : 10.1128/JCM.02402-16. ПМЦ 5442535 . ПМИД  28356418. 

дальнейшее чтение

Внешние ссылки

Всеобщее достояние Эта статья включает общедоступные материалы из Справочника NCBI. Национальный центр биотехнологической информации .