В секвенировании ДНК считывание — это выведенная последовательность пар оснований (или вероятностей пар оснований), соответствующая всему или части одного фрагмента ДНК. Типичный эксперимент по секвенированию включает фрагментацию генома на миллионы молекул, которые выбираются по размеру и лигируются с адаптерами . Набор фрагментов называется библиотекой секвенирования, которая секвенируется для получения набора считываний. [1]
Технологии секвенирования различаются по длине получаемых прочтений. Чтения длиной 20-40 пар оснований (пн) называются ультракороткими. [2] Типичные секвенаторы производят длины прочтений в диапазоне 100-500 пн. [3] Однако платформы Pacific Biosciences производят длины прочтений приблизительно 1500 пн. [4] Длина прочтений является фактором, который может повлиять на результаты биологических исследований. [5] Например, более длинные прочтения улучшают разрешение сборки генома de novo и обнаружение структурных вариантов. Предполагается, что для рутинной сборки генома человека de novo потребуются длины прочтений более 100 килобаз (кб) . [6] Биоинформационные конвейеры для анализа данных секвенирования обычно учитывают длины прочтений. [7]
Геном — это полная генетическая информация организма или клетки. Одно- или двухцепочечные нуклеиновые кислоты хранят эту информацию в линейной или кольцевой последовательности. Чтобы точно определить эту последовательность, со временем были разработаны более эффективные технологии с повышенной точностью, пропускной способностью и скоростью секвенирования. Технологии секвенирования Сэнгера и Максама-Гилберта были классифицированы как технологии секвенирования первого поколения, которые положили начало области секвенирования ДНК своей публикацией в 1977 году. [8] Секвенирование первого поколения обычно имеет длину прочтения от 400 до 900 пар оснований. [ необходима цитата ]
В 2005 году технология 454 компании Roche представила новую технологию секвенирования, которая могла обеспечить высокую производительность при низких затратах. [9] Эта и подобные технологии стали известны как секвенирование второго поколения или секвенирование следующего поколения (NGS) . Одной из отличительных черт NSG являются короткие прочтения последовательностей. Методы NGS могут секвенировать миллионы или миллиарды прочтений за один запуск, а время, необходимое для создания прочтений размером с GigaBase, составляет всего несколько дней или часов, что делает его превосходящим методы секвенирования первого поколения, такие как секвенирование по Сэнгеру. Все методы NSG производят короткие прочтения, т. е. 80–200 оснований, в отличие от более длинных прочтений, производимых секвенированием по Сэнгеру. [10]
Начиная с 2010-х годов, революционные новые технологии открыли эру секвенирования третьего поколения (TGS) . TGS — это термин, используемый для описания методов, которые способны секвенировать отдельные молекулы ДНК без амплификации. В то время как методы Сэнгера и SRS могут производить только считывания длиной в одну пару килобаз, технологии секвенирования третьего поколения могут производить считывания длиной от 5 до 30 пар килобаз. Самая длинная длина считывания, когда-либо созданная технологией секвенирования третьего поколения, составляет 2 миллиона пар оснований. [11]
Исторически рассматривалась только одна особь на вид из-за ограничений по времени и расходам, и ее последовательность служила «эталонным» геномом вида . Эти эталонные геномы можно использовать для руководства усилиями по ресеквенированию у того же вида, выступая в качестве шаблона картирования прочтений. Картирование прочтений — это процесс выравнивания прочтений NGS на эталонном геноме. [12] Любое приложение NGS, такое как вызов вариации генома, анализ транскриптома, вызов сайта связывания транскрипционных факторов, вызов эпигенетических меток, метагеномика и т. д., требует картирования прочтений. Производительность этих приложений зависит от точного выравнивания. Кроме того, поскольку количество прочтений очень велико, процесс картирования должен быть эффективным. Существуют различные методы, используемые для выравнивания прочтений на эталонном геноме в зависимости от того, сколько несовпадений и инделей разрешено. Грубо говоря, методы можно разделить на две категории: подход с использованием семян и расширений и подход с фильтрацией. Многие выравниватели коротких прочтений используют стратегию «засеять и расширить», например, BWA-SW, Bowtie 2, BatAlign, LAST, Cushaw2, BWA-MEM и т. д. Подход на основе фильтров используется рядом методов, например, SeqAlto, GEM, MASAI и т. д. [13]
В геномике повторная сборка геномов путем секвенирования ДНК является значительной проблемой. Полученные риды равномерно охватывают весь геном благодаря случайной выборке. Риды сшиваются вместе вычислительным путем для реконструкции генома. Этот процесс известен как сборка генома de novo .
Секвенирование по Сэнгеру имеет большую длину прочтения по сравнению с NGS. Для сборки прочтений секвенирования по Сэнгеру были разработаны два ассемблера — ассемблер OLC Celera и ассемблер графа де Брейна Euler. Эти два метода использовались для сборки нашего референсного генома человека. Однако, поскольку секвенирование по Сэнгеру является низкопроизводительным и дорогим, только несколько геномов собираются с помощью секвенирования по Сэнгеру.
Секвенирующие считывания второго поколения короткие, и эти методы секвенирования могут эффективно и экономически выгодно секвенировать сотни миллионов считываний. Для перестройки геномов из коротких последовательностей были созданы некоторые специальные геномные сборщики. Их успех породил несколько проектов по сборке генома de novo. Хотя этот метод экономически эффективен, считывания короткие, а повторяющиеся участки длинные, что приводит к фрагментированным геномам.
Теперь у нас есть очень длинные риды (10 000 п.н.) благодаря появлению секвенирования третьего поколения. Длинные риды способны разрешить порядок повторных регионов, хотя они имеют высокий уровень ошибок (15–18%). Для исправления ошибок в ридах секвенирования третьего поколения был разработан ряд вычислительных методов.
Сборка с короткими чтениями и сборка с длинными чтениями имеют разные преимущества и недостатки из-за частоты ошибок и простоты сборки. Иногда предпочтительнее гибридный метод, и короткие чтения и длинные чтения объединяются для получения лучшего результата. Существует два подхода, первый из которых заключается в использовании чтения mate-pair и длинных чтений для улучшения сборки из коротких чтений. Второй подход заключается в использовании коротких чтений для исправления ошибок в длинных чтениях.
Секвенирование второго поколения генерирует короткие прочтения (длиной < 300 п.н.), и они очень точны (частота ошибок секвенирования составляет ~1%). Технологии секвенирования коротких прочтений сделали секвенирование намного проще, быстрее и дешевле, чем секвенирование по Сэнгеру. В отчете Национального института исследований генома человека за август 2019 года стоимость секвенирования полного генома человека оценивается в 942,00 доллара США (USD). [14] [15]
Невозможность секвенировать длинные участки ДНК является недостатком, общим для всех технологий секвенирования второго поколения. Чтобы использовать NGS для секвенирования большого генома, такого как человеческая ДНК, ДНК должна быть фрагментирована и амплифицирована в клонах размером от 75 до 400 пар оснований, поэтому NGS также известен как «секвенирование коротких цепочек» (SRS). После секвенирования коротких считываний это становится вычислительной проблемой, и было разработано множество компьютерных программ и методов для сборки случайных клонов в непрерывную последовательность. [16]
Необходимым шагом в SRS является полимеразная цепная реакция, которая вызывает преимущественную амплификацию повторяющейся ДНК. SRS также не может генерировать достаточную перекрывающуюся последовательность из фрагментов ДНК. Это представляет собой серьезную проблему для секвенирования de novo очень сложного и повторяющегося генома, такого как геном человека. [17] Еще одной проблемой SRS является обнаружение больших изменений последовательностей, что является серьезным препятствием для изучения структурных вариаций. [18]
Третье поколение секвенирования последовательностей длинных прочтений часто называют секвенированием длинных прочтений (LRS). Технологии LRS способны секвенировать отдельные молекулы ДНК без амплификации. Наличие длинных прочтений представляет собой большое преимущество, поскольку часто бывает трудно сгенерировать длинную непрерывную консенсусную последовательность с использованием NGS из-за сложности обнаружения перекрытий между короткими прочтениями NGS, что влияет на общее качество сборки. Было показано, что LRS значительно улучшает качество сборки генома в нескольких исследованиях. [19] [20] Еще одним преимуществом LRS перед NGS является то, что он обеспечивает одновременную возможность характеризации различных эпигенетических меток вместе с секвенированием ДНК. [21] [22]
Главной проблемой LRS является точность и стоимость. Хотя LRS быстро совершенствуется и в этих областях.
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ){{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )