Чтение (биология)

В секвенировании ДНК считывание — это выведенная последовательность пар оснований (или вероятностей пар оснований), соответствующая всему или части одного фрагмента ДНК. Типичный эксперимент по секвенированию включает фрагментацию генома на миллионы молекул, которые выбираются по размеру и лигируются с адаптерами . Набор фрагментов называется библиотекой секвенирования, которая секвенируется для получения набора считываний. ^[1]

Длина чтения

Технологии секвенирования различаются по длине получаемых прочтений. Чтения длиной 20-40 пар оснований (пн) называются ультракороткими. ^[2] Типичные секвенаторы производят прочтения длиной в диапазоне 100-500 пн. ^[3] Однако платформы Pacific Biosciences производят прочтения длиной около 1500 пн. ^[4] Длина прочтения является фактором, который может повлиять на результаты биологических исследований. ^[5] Например, более длинные прочтения улучшают разрешение сборки генома de novo и обнаружение структурных вариантов. Предполагается, что для рутинной сборки генома человека de novo потребуются прочтения длиной более 100 килобаз (кб) . ^[6] Биоинформационные конвейеры для анализа данных секвенирования обычно учитывают длину прочтения. ^[7]

Поколения секвенирования и длины прочтений

Геном — это полная генетическая информация организма или клетки. Одно- или двухцепочечные нуклеиновые кислоты хранят эту информацию в линейной или кольцевой последовательности. Чтобы точно определить эту последовательность, со временем были разработаны более эффективные технологии с повышенной точностью, пропускной способностью и скоростью секвенирования. Технологии секвенирования Сэнгера и Максама-Гилберта были классифицированы как технологии секвенирования первого поколения, которые положили начало области секвенирования ДНК своей публикацией в 1977 году. ^[8] Секвенирование первого поколения обычно имеет длину прочтения от 400 до 900 пар оснований. ^{[ необходима цитата ]}

В 2005 году технология 454 компании Roche представила новую технологию секвенирования, которая могла обеспечить высокую производительность при низких затратах. ^[9] Эта и подобные технологии стали известны как секвенирование второго поколения или секвенирование следующего поколения (NGS) . Одной из отличительных черт NSG являются короткие чтения последовательностей. Методы NGS могут секвенировать миллионы или миллиарды чтений за один запуск, а время, необходимое для создания чтений размером с GigaBase, составляет всего несколько дней или часов, что делает его превосходящим методы секвенирования первого поколения, такие как секвенирование по Сэнгеру. Все методы NSG производят короткие чтения, т. е. 80–200 оснований, в отличие от более длинных чтений, производимых секвенированием по Сэнгеру. ^[10]

Начиная с 2010-х годов, революционные новые технологии открыли эру секвенирования третьего поколения (TGS) . TGS — это термин, используемый для описания методов, которые способны секвенировать отдельные молекулы ДНК без амплификации. В то время как методы Сэнгера и SRS могут производить только считывания длиной в одну пару килобаз, технологии секвенирования третьего поколения могут производить считывания длиной от 5 до 30 пар килобаз. Самая длинная длина считывания, когда-либо созданная технологией секвенирования третьего поколения, составляет 2 миллиона пар оснований. ^[11]

NGS и картирование чтения

Исторически рассматривалась только одна особь на вид из-за ограничений по времени и расходам, и ее последовательность служила «эталонным» геномом вида . Эти эталонные геномы можно использовать для руководства усилиями по ресеквенированию у того же вида, выступая в качестве шаблона картирования прочтений. Картирование прочтений — это процесс выравнивания прочтений NGS на эталонном геноме. ^[12] Любое приложение NGS, такое как вызов вариации генома, анализ транскриптома, вызов сайта связывания транскрипционных факторов, вызов эпигенетических меток, метагеномика и т. д., требует картирования прочтений. Производительность этих приложений зависит от точного выравнивания. Кроме того, поскольку количество прочтений очень велико, процесс картирования должен быть эффективным. Существуют различные методы, используемые для выравнивания прочтений на эталонном геноме в зависимости от того, сколько несовпадений и инделей разрешено. Грубо говоря, методы можно разделить на две категории: подход с использованием семян и расширений и подход с фильтрацией. Многие выравниватели коротких прочтений используют стратегию «засеять и расширить», например, BWA-SW, Bowtie 2, BatAlign, LAST, Cushaw2, BWA-MEM и т. д. Подход на основе фильтров используется рядом методов, например, SeqAlto, GEM, MASAI и т. д. ^[13]

Сборка генома и прочтение последовательности

В геномике повторная сборка геномов путем секвенирования ДНК является значительной проблемой. Полученные риды равномерно охватывают весь геном благодаря случайной выборке. Риды сшиваются вместе вычислительным путем для реконструкции генома. Этот процесс известен как сборка генома de novo .

Секвенирование по Сэнгеру имеет большую длину прочтения по сравнению с NGS. Для сборки прочтений секвенирования по Сэнгеру были разработаны два ассемблера — ассемблер OLC Celera и ассемблер графа де Брейна Euler. Эти два метода использовались для сборки нашего референсного генома человека. Однако, поскольку секвенирование по Сэнгеру является низкопроизводительным и дорогим, только несколько геномов собираются с помощью секвенирования по Сэнгеру.

Секвенирующие считывания второго поколения короткие, и эти методы секвенирования могут эффективно и экономически выгодно секвенировать сотни миллионов считываний. Для перестройки геномов из коротких последовательностей были созданы некоторые специальные ассемблеры генома. Их успех породил несколько проектов по сборке генома de novo. Хотя этот метод экономически эффективен, считывания короткие, а повторяющиеся участки длинные, что приводит к фрагментированным геномам.

Теперь у нас есть очень длинные риды (10 000 п.н.) благодаря появлению секвенирования третьего поколения. Длинные риды способны разрешить порядок повторных регионов, хотя они имеют высокий уровень ошибок (15–18%). Для исправления ошибок в ридах секвенирования третьего поколения был разработан ряд вычислительных методов.

Сборка с короткими чтениями и сборка с длинными чтениями имеют разные преимущества и недостатки из-за частоты ошибок и простоты сборки. Иногда предпочтительнее гибридный метод, и короткие чтения и длинные чтения объединяются для получения лучшего результата. Существует два подхода, первый из которых заключается в использовании чтения mate-pair и длинных чтений для улучшения сборки из коротких чтений. Второй подход заключается в использовании коротких чтений для исправления ошибок в длинных чтениях.

Преимущества и недостатки коротких чтений

Секвенирование второго поколения генерирует короткие прочтения (длиной < 300 п.н.), и они очень точны (коэффициент ошибок секвенирования составляет ~1%). Технологии секвенирования коротких прочтений сделали секвенирование намного проще, быстрее и дешевле, чем секвенирование по Сэнгеру. В отчете Национального института исследований генома человека за август 2019 года стоимость секвенирования полного генома человека оценивается в 942,00 доллара США (USD). ^[14]^[15]

Невозможность секвенировать длинные участки ДНК является недостатком, общим для всех технологий секвенирования второго поколения. Чтобы использовать NGS для секвенирования большого генома, такого как человеческая ДНК, ДНК должна быть фрагментирована и амплифицирована в клонах размером от 75 до 400 пар оснований, поэтому NGS также известен как «секвенирование коротких цепочек» (SRS). После секвенирования коротких считываний это становится вычислительной проблемой, и было разработано множество компьютерных программ и методов для сборки случайных клонов в непрерывную последовательность. ^[16]

Необходимым шагом в SRS является полимеразная цепная реакция, которая вызывает преимущественную амплификацию повторяющейся ДНК. SRS также не может генерировать достаточную перекрывающуюся последовательность из фрагментов ДНК. Это представляет собой серьезную проблему для секвенирования de novo очень сложного и повторяющегося генома, такого как геном человека. ^[17] Еще одной проблемой SRS является обнаружение больших изменений последовательностей, что является серьезным препятствием для изучения структурных вариаций. ^[18]

Преимущества и недостатки лонгридов

Третье поколение секвенирования последовательностей длинных прочтений часто называют секвенированием длинных прочтений (LRS). Технологии LRS способны секвенировать отдельные молекулы ДНК без амплификации. Наличие длинных прочтений представляет собой большое преимущество, поскольку часто бывает трудно сгенерировать длинную непрерывную консенсусную последовательность с использованием NGS из-за сложности обнаружения перекрытий между короткими прочтениями NGS, что влияет на общее качество сборки. Было показано, что LRS значительно улучшает качество сборки генома в нескольких исследованиях. ^[19]^[20] Еще одним преимуществом LRS перед NGS является то, что он обеспечивает одновременную возможность характеризации различных эпигенетических меток вместе с секвенированием ДНК. ^[21]^[22]

Главной проблемой LRS является точность и стоимость. Хотя LRS быстро совершенствуется и в этих областях.

Смотрите также

Ссылки

^ "Библиотека секвенирования: что это?". Breda Genetics . 2016-08-12 . Получено 23 июля 2017 г.
^ Chaisson, Mark J. (2009). «Сборка фрагментов de novo с короткими парными прочтениями: имеет ли значение длина прочтения?». Genome Research . 19 (2): 336–346. doi :10.1101/gr.079053.108. PMC 2652199. PMID 19056694. Получено 23 июля 2017 г.
^ Джунеманн, Себастьян (2013). «Обновление сравнения производительности настольного секвенирования». Nature Biotechnology . 31 (4): 294–296. doi : 10.1038/nbt.2522 . PMID 23563421.
^ Куэйл, Майкл А. (2012). «Рассказ о трех платформах секвенирования следующего поколения: сравнение секвенаторов Ion Torrent, Pacific Biosciences и Illumina MiSeq». BMC Genomics . 13 (1): 341. doi : 10.1186/1471-2164-13-341 . PMC 3431227 . PMID 22827831.
^ Чхангавала, Сагар; Руди, Гейб; Мейсон, Кристофер Э.; Розенфельд, Джеффри А. (23 июня 2015 г.). «Влияние длины прочтения на количественную оценку дифференциально экспрессируемых генов и обнаружение сплайс-соединения». Genome Biology . 16 (1): 131. doi : 10.1186/s13059-015-0697-y . PMC 4531809 . PMID 26100517.
^ Chaisson, Mark JP (2015). «Генетическая изменчивость и сборка геномов человека de novo». Nature Reviews Genetics . 16 (11): 627–640. doi :10.1038/nrg3933. PMC 4745987. PMID 26442640 .
^ Конеса, Ана; Мадригал, Педро; Таразона, Соня; Гомес-Кабреро, Дэвид; Сервера, Алехандра; Макферсон, Эндрю; Щесняк, Михал Войцех; Гаффни, Дэниел Дж.; Эло, Лаура Л.; Чжан, Сюэгун; Мортазави, Али (26 января 2016 г.). «Обзор лучших практик анализа данных секвенирования РНК». Геномная биология . 17 (1): 13. дои : 10.1186/s13059-016-0881-8 . ПМЦ 4728800 . ПМИД 26813401.
^ Джани, Элис Мария; Галло, Гвидо Роберто; Джанфранчески, Лука; Форменти, Джулио (2020). «Долгий путь к геномике: история и современные подходы к секвенированию и сборке генома». Computational and Structural Biotechnology Journal . 18 : 9–19. doi : 10.1016/j.csbj.2019.11.002. PMC 6926122. PMID 31890139 .
^ Цян-лун, Чжу; Ши, Лю; Пэн, Гао; Фэй-ши, Луань (1 сентября 2014 г.). «Технология высокопроизводительного секвенирования и ее применение». Журнал Северо-Восточного сельскохозяйственного университета (английское издание) . 21 (3): 84–96. doi :10.1016/S1006-8104(14)60073-8.
^ Chaisson, M.; Pevzner, P.; Tang, H. (1 сентября 2004 г.). «Сборка фрагментов с короткими прочтениями». Bioinformatics . 20 (13): 2067–2074. doi :10.1093/bioinformatics/bth205. PMID 15059830.
^ Крафт, Флориан; Курт, Инго (16 июля 2019 г.). «Длительное секвенирование в генетике человека». Медицинская генетика . 31 (2): 198–204. дои : 10.1007/s11825-019-0249-z . S2CID 197402652.
^ Sung, Wing-Kin (2017). Алгоритмы для секвенирования следующего поколения . Бока-Ратон. ISBN 978-1466565500.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Sung, Wing-Kin (2017). Алгоритмы для секвенирования следующего поколения . Бока-Ратон. ISBN 978-1466565500.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Adewale, Boluwatife A. (26 ноября 2020 г.). «Заменят ли технологии секвенирования с длинными прочтениями технологии секвенирования с короткими прочтениями в течение следующих 10 лет?». African Journal of Laboratory Medicine . 9 (1): 5. doi :10.4102/ajlm.v9i1.1340. PMC 7736650. PMID 33354530 .
^ «Стоимость секвенирования ДНК: данные». Genome.gov .
^ Мардис, Элейн Р. (февраль 2017 г.). «Технологии секвенирования ДНК: 2006–2016». Nature Protocols . 12 (2): 213–218. doi :10.1038/nprot.2016.182. PMID 28055035. S2CID 205466745.
^ Мардис, Элейн Р. (февраль 2017 г.). «Технологии секвенирования ДНК: 2006–2016». Nature Protocols . 12 (2): 213–218. doi :10.1038/nprot.2016.182. PMID 28055035. S2CID 205466745.
^ Хо, Стив С.; Урбан, Александр Э.; Миллс, Райан Э. (март 2020 г.). «Структурные вариации в эпоху секвенирования». Nature Reviews Genetics . 21 (3): 171–189. doi :10.1038/s41576-019-0180-9. PMC 7402362. PMID 31729472 .
^ Роадс, Энтони; Ау, Кин Фай (октябрь 2015 г.). «PacBio Sequencing and Its Applications». Genomics, Proteomics & Bioinformatics . 13 (5): 278–289. doi :10.1016/j.gpb.2015.08.002. PMC 4678779 . PMID 26542840.
^ Венгер, Аарон М.; Пелусо, Пол; Роуэлл, Уильям Дж.; Чанг, Пи-Чуань; Холл, Ричард Дж.; Консепсьон, Грегори Т.; Эблер, Яна; Фунгтаммасан, Аркарачай; Колесников, Алексей; Олсон, Натан Д.; Тёпфер, Армин; Алонге, Майкл; Махмуд, Медхат; Цянь, Юйфэн; Чин, Чэнь-Шань; Филлиппи, Адам М.; Шатц, Майкл К.; Майерс, Джин; ДеПристо, Марк А.; Руан, Цзюэ; Маршалл, Тобиас; Седлазек, Фриц Дж.; Зук, Джастин М.; Ли, Хэн; Корен, Сергей; Кэрролл, Эндрю; Ранк, Дэвид Р.; Хункапиллер, Майкл У. (октябрь 2019 г.). «Точное круговое консенсусное секвенирование с длинными прочтениями улучшает обнаружение вариантов и сборку человеческого генома». Nature Biotechnology . 37 (10): 1155–1162. doi :10.1038/s41587-019-0217-9. PMC 6776680 . PMID 31406327.
^ Флусберг, Бенджамин А.; Вебстер, Дейл Р.; Ли, Джессика Х.; Трэверс, Кевин Дж.; Оливарес, Эрик С.; Кларк, Тайсон А.; Корлах, Джонас; Тернер, Стивен В. (июнь 2010 г.). «Прямое обнаружение метилирования ДНК во время секвенирования одной молекулы в реальном времени». Nature Methods . 7 (6): 461–465. doi :10.1038/nmeth.1459. PMC 2879396 . PMID 20453866.
^ Симпсон, Джаред Т.; Воркман, Рэйчел Э.; Зузарте, П. К.; Дэвид, Матей; Дурси, Л. Дж.; Тимп, Уинстон (апрель 2017 г.). «Обнаружение метилирования цитозина ДНК с использованием нанопорового секвенирования». Nature Methods . 14 (4): 407–410. doi :10.1038/nmeth.4184. PMID 28218898. S2CID 16152628.