Последовательность выстрелов дробовиком

В генетике дробовик — это метод, используемый для секвенирования случайных цепей ДНК . Он назван по аналогии с быстро расширяющейся квазислучайной группировкой выстрелов дробовика .

Метод обрыва цепи секвенирования ДНК («секвенирование по Сэнгеру») может быть использован только для коротких цепей ДНК длиной от 100 до 1000 пар оснований . Из-за этого ограничения по размеру более длинные последовательности подразделяются на более мелкие фрагменты, которые могут быть секвенированы отдельно, и эти последовательности собираются для получения общей последовательности.

В дробовом секвенировании ^[1]^[2] ДНК разбивается случайным образом на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения прочтений . Множественные перекрывающиеся прочтения для целевой ДНК получаются путем выполнения нескольких раундов этой фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы различных прочтений для сборки их в непрерывную последовательность. ^[1]

Метод дробового секвенирования был одной из предшественников технологий, позволивших проводить секвенирование всего генома .

Пример

Например, рассмотрим следующие два раунда быстрого прочтения:

В этом крайне упрощенном примере ни одно из прочтений не покрывает всю длину исходной последовательности, но четыре прочтения можно собрать в исходную последовательность, используя перекрытие их концов для выравнивания и упорядочивания. В действительности этот процесс использует огромные объемы информации, которые изобилуют неоднозначностями и ошибками секвенирования. Сборка сложных геномов дополнительно осложняется большим количеством повторяющихся последовательностей , что означает, что похожие короткие прочтения могут происходить из совершенно разных частей последовательности.

Для преодоления этих трудностей и точной сборки последовательности необходимо множество перекрывающихся прочтений для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека » большая часть генома человека была секвенирована с покрытием 12X или большим ; то есть каждое основание в конечной последовательности присутствовало в среднем в 12 различных прочтениях. Тем не менее, современные методы не смогли выделить или собрать надежную последовательность примерно для 1% ( эухроматического ) генома человека по состоянию на 2004 год. ^[3]

Секвенирование всего генома методом дробовика

История

Метод дробового секвенирования всего генома для небольших (от 4000 до 7000 пар оснований) геномов был впервые предложен в 1979 году. ^[1] Первым геномом, секвенированным методом дробового секвенирования, был геном вируса мозаики цветной капусты , опубликованный в 1981 году. ^[4]^[5]

Парноконцевое секвенирование

Более широкое применение получило выгоду от секвенирования парных концов , в просторечии известного как секвенирование из двухствольного дробовика . Поскольку проекты по секвенированию начали охватывать более длинные и сложные последовательности ДНК, многочисленные группы начали понимать, что полезную информацию можно получить, секвенировав оба конца фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более обременительным, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности были ориентированы в противоположных направлениях и находились на расстоянии примерно длины фрагмента друг от друга, было ценным для реконструкции последовательности исходного целевого фрагмента.

История . Первое опубликованное описание использования парных концов было в 1990 году ^[6] как часть секвенирования человеческого локуса HGPRT , хотя использование парных концов было ограничено закрытием пробелов после применения традиционного подхода дробовика секвенирования. Первое теоретическое описание чистой стратегии парного секвенирования концов, предполагающей фрагменты постоянной длины, было в 1991 году. ^[7] В то время существовал консенсус сообщества, что оптимальная длина фрагмента для парного секвенирования концов будет в три раза больше длины считываемой последовательности. В 1995 году Роуч и др. ^[8] представили новшество использования фрагментов различных размеров и продемонстрировали, что чистая стратегия парного секвенирования концов будет возможна на больших мишенях. Впоследствии эта стратегия была принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 году ^[9] , а затем компанией Celera Genomics для секвенирования генома Drosophila melanogaster (плодовой мушки) в 2000 году ^[10] , а затем и генома человека.

Подход

Чтобы применить эту стратегию, высокомолекулярная цепь ДНК разрезается на случайные фрагменты, выбранные по размеру (обычно 2, 10, 50 и 150 кб), и клонируется в соответствующий вектор . Затем клоны секвенируются с обоих концов с использованием метода терминации цепи, что дает две короткие последовательности. Каждая последовательность называется конечным считыванием или считыванием 1 и считыванием 2 , а два считывания из одного и того же клона называются парными парами . Поскольку метод терминации цепи обычно может производить считывания длиной только от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары парных пар будут редко перекрываться.

Сборка

Исходная последовательность реконструируется из прочтений с помощью программного обеспечения для сборки последовательностей . Сначала перекрывающиеся прочтения собираются в более длинные составные последовательности, известные как контиги . Контиги могут быть связаны вместе в каркасы , следуя связям между парами сопряжения. Расстояние между контигами может быть выведено из положений пар сопряжения, если известна средняя длина фрагмента библиотеки и имеет узкое окно отклонения. В зависимости от размера зазора между контигами могут использоваться различные методы для поиска последовательности в зазорах. Если зазор небольшой (5-20 кб), то требуется использование полимеразной цепной реакции (ПЦР) для амплификации области с последующим секвенированием. Если зазор большой (>20 кб), то большой фрагмент клонируется в специальных векторах, таких как бактериальные искусственные хромосомы (BAC), с последующим секвенированием вектора.

Плюсы и минусы

Сторонники этого подхода утверждают, что возможно секвенировать весь геном сразу, используя большие массивы секвенаторов, что делает весь процесс намного более эффективным, чем более традиционные подходы. Противники утверждают, что хотя эта техника быстро секвенирует большие области ДНК, ее способность правильно связывать эти области сомнительна, особенно для эукариотических геномов с повторяющимися областями. Поскольку программы сборки последовательностей становятся более сложными, а вычислительная мощность дешевеет, это ограничение может быть преодолено. ^[11]

Покрытие

Покрытие (глубина прочтения или глубина) — это среднее число прочтений, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать из длины исходного генома ( G ), числа прочтений ( N ) и средней длины прочтения ( L ) как . Например, гипотетический геном с 2000 парами оснований, реконструированный из 8 прочтений со средней длиной 500 нуклеотидов, будет иметь 2-кратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент генома, покрытый прочтениями (иногда также называемый покрытием). Высокое покрытие при дробовом секвенировании желательно, поскольку оно может преодолеть ошибки в вызове и сборке оснований . Предмет теории секвенирования ДНК рассматривает взаимосвязи таких величин. $N\times L/G$

Иногда проводится различие между покрытием последовательностей и физическим покрытием . Покрытие последовательностей — это среднее количество раз, когда база считывается (как описано выше). Физическое покрытие — это среднее количество раз, когда база считывается или охватывается парными чтениями. ^[12]

Иерархическая последовательность выстрелов

Хотя дробовик-секвенирование теоретически может быть применено к геному любого размера, его прямое применение к секвенированию больших геномов (например, человеческого генома ) было ограничено до конца 1990-х годов, когда технологические достижения сделали практичной обработку огромных объемов сложных данных, вовлеченных в процесс. ^[13] Исторически считалось, что дробовик-секвенирование всего генома ограничено как огромным размером больших геномов, так и сложностью, добавляемой высоким процентом повторяющейся ДНК (более 50% для человеческого генома), присутствующей в больших геномах. ^[14] Не было широко принято, что дробовик-секвенирование всего генома большого генома даст надежные данные. По этим причинам пришлось использовать другие стратегии, которые снизили вычислительную нагрузку сборки последовательности, прежде чем было выполнено дробовик-секвенирование. ^[14] При иерархическом секвенировании, также известном как секвенирование сверху вниз, физическая карта генома с низким разрешением создается до фактического секвенирования. Из этой карты для секвенирования выбирается минимальное количество фрагментов, которые покрывают всю хромосому. ^[15] Таким образом, требуется минимальный объем высокопроизводительного секвенирования и сборки.

Амплифицированный геном сначала разрезается на более крупные части (50-200 кб) и клонируется в бактериальный хозяин с использованием BAC или искусственных хромосом, полученных из P1 (PAC). Поскольку множественные копии генома разрезались случайным образом, фрагменты, содержащиеся в этих клонах, имеют разные концы, и при достаточном покрытии (см. раздел выше) теоретически возможно найти наименьший возможный каркас BAC - контигов , который покрывает весь геном. Этот каркас называется минимальным путем тайлинга .

После того, как путь мозаики найден, BAC, которые формируют этот путь, случайным образом разрезаются на более мелкие фрагменты и могут быть секвенированы с использованием метода дробовика в меньшем масштабе. ^[16]

Хотя полные последовательности контигов BAC неизвестны, их ориентация относительно друг друга известна. Существует несколько методов для выведения этого порядка и выбора BAC, которые составляют мозаичный путь. Общая стратегия включает в себя определение положений клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для формирования непрерывного каркаса, который покрывает всю интересующую область. Порядок клонов выводится путем определения способа, которым они перекрываются. ^[17] Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченый зонд, содержащий сайт с маркировкой последовательности (STS), может быть гибридизирован на микрочипе, на котором печатаются клоны. ^[17] Таким образом, идентифицируются все клоны, которые содержат определенную последовательность в геноме. Затем конец одного из этих клонов можно секвенировать, чтобы получить новый зонд, и процесс повторяется в методе, называемом прогулка по хромосоме.

В качестве альтернативы библиотека BAC может быть подвергнута рестрикции . Предполагается, что два клона, имеющие несколько общих размеров фрагментов, перекрываются, поскольку они содержат несколько схоже расположенных сайтов рестрикции. ^[17] Этот метод геномного картирования называется рестрикцией или BAC-фингерпринтингом, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне. После того, как перекрытие между клонами найдено и их порядок относительно известного генома, каркас минимального подмножества этих контигов, который охватывает весь геном, секвенируется методом дробовика. ^[15]

Поскольку иерархическое секвенирование методом дробовика сначала предполагает создание карты генома с низким разрешением, оно медленнее, чем секвенирование методом дробовика всего генома, но в меньшей степени опирается на компьютерные алгоритмы, чем секвенирование методом дробовика всего генома. Однако процесс создания обширной библиотеки BAC и выбор пути тайлинга делают иерархическое секвенирование методом дробовика медленным и трудоемким. Теперь, когда технология доступна и надежность данных продемонстрирована, ^[14] скорость и экономическая эффективность секвенирования методом дробовика всего генома сделали его основным методом секвенирования генома.

Новые технологии секвенирования

Классическое секвенирование методом дробовика было основано на методе секвенирования Сэнгера: это была самая передовая техника секвенирования геномов примерно с 1995 по 2005 год. Стратегия дробовика применяется и сегодня, однако с использованием других технологий секвенирования, таких как секвенирование с коротким считыванием и секвенирование с длинным считыванием .

Секвенирование с коротким считыванием или «следующего поколения» производит более короткие считывания (где-то от 25 до 500 п.н.), но многие сотни тысяч или миллионы считываний за относительно короткое время (порядка дня). ^[18] Это приводит к высокому покрытию, но процесс сборки гораздо более интенсивен в вычислительном плане. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования целого генома. ^[19]

Метагеномное секвенирование методом дробовика

Наличие прочтений длиной 400-500 пар оснований достаточно для определения вида или штамма организма, откуда взята ДНК, при условии, что его геном уже известен, с помощью, например, программного обеспечения таксономического классификатора на основе k -меров . С миллионами прочтений из следующего поколения секвенирования образца окружающей среды можно получить полный обзор любого сложного микробиома с тысячами видов, например, кишечной флоры . Преимущества перед секвенированием ампликона 16S рРНК : отсутствие ограничения бактериями; классификация на уровне штамма, когда секвенирование ампликона получает только род; и возможность извлекать целые гены и определять их функцию как часть метагенома. ^[20] Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования . ^[21] Однако оно подчеркивает проблему загрязнения образца или конвейера секвенирования. ^[22]

Смотрите также

Ссылки

^ abc Staden, R. (1979). «Стратегия секвенирования ДНК с использованием компьютерных программ». Nucleic Acids Research . 6 (7): 2601–2610. doi :10.1093/nar/6.7.2601. PMC 327874. PMID 461197 .
^ Андерсон, Стивен (1981). «Дробовик ДНК-секвенирования с использованием клонированных фрагментов, созданных ДНКазой I». Nucleic Acids Research . 9 (13): 3015–3027. doi :10.1093/nar/9.13.3015. PMC 327328. PMID 6269069 .
↑ Международный консорциум по секвенированию генома человека (21 октября 2004 г.). «Завершение эухроматической последовательности генома человека». Nature . 431 (7011): 931–945. Bibcode :2004Natur.431..931H. doi : 10.1038/nature03001 . PMID 15496913.
^ Гарднер, Ричард К.; Ховарт, Алан Дж.; Хан, Питер; Браун-Льюди, Марианна; Шепард, Роберт Дж.; Мессинг, Иоахим (1981-06-25). «Полная нуклеотидная последовательность инфекционного клона вируса мозаики цветной капусты с помощью секвенирования дробовика M13mp7». Nucleic Acids Research . 9 (12): 2871–2888. doi :10.1093/nar/9.12.2871. ISSN 0305-1048. PMC 326899. PMID 6269062 .
^ Doctrow, Brian (2016-07-19). "Профиль Иоахима Мессинга". Труды Национальной академии наук . 113 (29): 7935–7937. Bibcode : 2016PNAS..113.7935D. doi : 10.1073/pnas.1608857113 . ISSN 0027-8424. PMC 4961156. PMID 27382176 .
^ Эдвардс, Эл; Каски, К. Томас (август 1991 г.). «Стратегии закрытия для случайного секвенирования ДНК». Методы . 3 (1): 41–47. doi :10.1016/S1046-2023(05)80162-8.
^ Эдвардс, Эл; Восс, Хартмут; Райс, Питер; Чивителло, Эндрю; Стегеманн, Йозеф; Швагер, Кристиан; Циммерманн, Юрген; Эрфле, Хольгер; Кэски, К. Томас; Ансорж, Вильгельм (апрель 1990 г.). «Автоматическое секвенирование ДНК локуса HPRT человека». Геномика . 6 (4): 593–608. дои : 10.1016/0888-7543(90)90493-E. ПМИД 2341149.
^ Роач, Джаред С.; Бойсен, Сесили; Ванг, Кай; Худ, Лерой (март 1995 г.). «Парное конечное секвенирование: унифицированный подход к геномному картированию и секвенированию». Геномика . 26 (2): 345–353. doi :10.1016/0888-7543(95)80219-C. PMID 7601461.
^ Флейшманн, РД; и др. (1995). «Случайное секвенирование всего генома и сборка Haemophilus influenzae Rd». Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID 7542800. S2CID 10423613.
^ Адамс, MD; et al. (2000). "Последовательность генома Drosophila melanogaster" (PDF) . Science . 287 (5461): 2185–95. Bibcode :2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi :10.1126/science.287.5461.2185. PMID 10731132. Архивировано из оригинала (PDF) 22-07-2018 . Получено 25-10-2017 .
^ Pop, Mihai; Salzberg, Steven L. (март 2008 г.). «Проблемы биоинформатики новой технологии секвенирования». Trends in Genetics . 24 (3): 142–149. doi :10.1016/j.tig.2007.12.006. ISSN 0168-9525. PMC 2680276. PMID 18262676 .
^ Мейерсон, М.; Габриэль, С.; Гетц, Г. (2010). «Достижения в понимании геномов рака посредством секвенирования второго поколения». Nature Reviews Genetics . 11 (10): 685–696. doi :10.1038/nrg2841. PMID 20847746. S2CID 2544266.
^ Данхэм, Иэн (9 сентября 2005 г.). «Секвенирование генома». Энциклопедия наук о жизни . doi :10.1038/npg.els.0005378. ISBN 978-0-470-01617-6.
^ abc Venter, J Craig (9 сентября 2005 г.). «Shotgunning the Human Genome: A Personal View». Энциклопедия наук о жизни . doi :10.1038/npg.els.0005850. ISBN 978-0-470-01617-6.
^ ab Гибсон, Г. и Мьюз, С.В. Учебник по геномной науке . 3-е изд., стр. 84
^ Bozdag, Serdar; Close, Timothy J.; Lonardi, Stefano (март 2013 г.). «Теоретико-графовый подход к выбору минимального пути разбиения на фрагменты из физической карты». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 10 (2): 352–360. doi :10.1109/tcbb.2013.26. ISSN 1545-5963. PMID 23929859.
^ abc Dear, Paul H (9 сентября 2005 г.). "Картирование генома". Энциклопедия наук о жизни . doi :10.1038/npg.els.0005353. ISBN 978-0-470-01617-6.
^ Voelkerding, Karl V; Dames, Shale A; Durtschi, Jacob D (1 апреля 2009 г.). «Секвенирование следующего поколения: от фундаментальных исследований до диагностики». Клиническая химия . 55 (4): 641–658. doi : 10.1373/clinchem.2008.112789 . PMID 19246620.
^ Мецкер, Майкл Л. (январь 2010 г.). «Технологии секвенирования — следующее поколение». Nature Reviews Genetics . 11 (1): 31–46. CiteSeerX 10.1.1.719.3885 . doi :10.1038/nrg2626. PMID 19997069. S2CID 205484500.
^ Roumpeka, Despoina D.; Wallace, R. John; Escalettes, Frank; Fotheringham, Ian; Watson, Mick (6 марта 2017 г.). «Обзор инструментов биоинформатики для биоразведки на основе данных метагеномной последовательности». Frontiers in Genetics . 8 : 23. doi : 10.3389/fgene.2017.00023 . PMC 5337752. PMID 28321234 .
^ Гу, Вэй; Миллер, Стив; Чиу, Чарльз И. (24 января 2019 г.). «Клиническое метагеномное секвенирование следующего поколения для обнаружения патогенов». Ежегодный обзор патологии: механизмы заболеваний . 14 (1): 319–338. doi :10.1146/ annurev -pathmechdis-012418-012751. PMC 6345613. PMID 30355154.
^ Thoendel, Matthew; Jeraldo, Patricio; Greenwood-Quaintance, Kerryl E.; Yao, Janet; Chia, Nicholas; Hanssen, Arlen D.; Abdel, Matthew P.; Patel, Robin (июнь 2017 г.). «Влияние контаминирующей ДНК в наборах для амплификации всего генома, используемых для метагеномного дробового секвенирования для диагностики инфекций». Журнал клинической микробиологии . 55 (6): 1789–1801. doi :10.1128/JCM.02402-16. PMC 5442535. PMID 28356418 .

Дальнейшее чтение

«Shotgun Sequencing приходит в зрелость». The Scientist . Архивировано из оригинала 14 мая 2011 г. . Получено 31 декабря 2002 г. .
«Дробовик секвенирования обнаружил наноорганизмы — исследование кислотного дренажа шахты выявило неожиданные археи размером с вирус». SpaceRef.com . 22 декабря 2006 г. Получено 23 декабря 2006 г.

Внешние ссылки

В статье использованы материалы из общедоступного справочника NCBI Handbook. Национальный центр биотехнологической информации .