stringtranslate.com

Последовательность сборки

В биоинформатике сборка последовательности означает выравнивание и слияние фрагментов из более длинной последовательности ДНК с целью реконструкции исходной последовательности. [1] Это необходимо, поскольку технология секвенирования ДНК не может «считывать» целые геномы за один раз, а скорее считывает небольшие фрагменты размером от 20 до 30 000 оснований, в зависимости от используемой технологии. [1] Обычно короткие фрагменты (считывания) получаются в результате дробового секвенирования геномной ДНК или транскриптов генов ( EST ). [1]

Проблему сборки последовательности можно сравнить с тем, как если бы вы взяли много копий книги, пропустили каждую из них через измельчитель с другим резаком и собрали текст книги обратно, просто взглянув на измельченные части. Помимо очевидной сложности этой задачи, есть некоторые дополнительные практические проблемы: в оригинале может быть много повторяющихся абзацев, а некоторые клочки могут быть изменены во время измельчения, чтобы иметь опечатки. Также могут быть добавлены отрывки из другой книги, а некоторые клочки могут быть совершенно неузнаваемыми.

Типы

Типы последовательной сборки

Существует три подхода к сбору данных секвенирования:

  1. De-novo: сборка прочтений секвенирования для создания полноразмерных (иногда новых) последовательностей без использования шаблона (см. Сборщики последовательностей de novo , сборка транскриптома de novo ) [2]
  2. Картирование/Выравнивание: сборка прочтений путем выравнивания прочтений по шаблону (AKA reference). Собранный консенсус может не совпадать с шаблоном.
  3. Справочно-ориентированный: группировка прочтений по сходству с наиболее похожим регионом в пределах ссылки (пошаговое отображение). Затем прочтения в каждой группе укорачиваются, чтобы имитировать качество коротких прочтений. Типичным методом для этого является подход k-mer . Сборка с референс-ориентированным подходом наиболее полезна при использовании длинных прочтений . [3]

Сборка с использованием ссылок представляет собой комбинацию других типов. Этот тип применяется к длинным чтениям для имитации преимуществ коротких чтений (т. е. качества вызова). Логика, лежащая в его основе, заключается в группировке чтений по меньшим окнам в пределах ссылки. Затем чтения в каждой группе будут уменьшены в размере с использованием подхода k-mere для выбора наивысшего качества и наиболее вероятного смежного (contig). Затем контиги будут объединены вместе для создания каркаса. Окончательное согласие достигается путем закрытия любых пробелов в каркасе.

Ассамблеи

Геном

Первые ассемблеры последовательностей начали появляться в конце 1980-х и начале 1990-х годов как варианты более простых программ выравнивания последовательностей для объединения огромных количеств фрагментов, сгенерированных автоматизированными инструментами секвенирования, называемыми ДНК-секвенаторами . [2] По мере того, как секвенируемые организмы росли в размерах и сложности (от небольших вирусов и плазмид до бактерий и, наконец, эукариот ), программы сборки, используемые в этих геномных проектах, нуждались во все более сложных стратегиях для обработки:

Столкнувшись с проблемой сборки первых крупных эукариотических геномов — плодовой мушки Drosophila melanogaster в 2000 году и человеческого генома всего год спустя, — ученые разработали ассемблеры, такие как Celera Assembler [4] и Arachne [5], способные обрабатывать геномы от 130 миллионов (например, плодовая мушка D. melanogaster ) до 3 миллиардов (например, человеческий геном) пар оснований. После этих усилий несколько других групп, в основном в основных центрах секвенирования генома, построили крупномасштабные ассемблеры, и была запущена работа с открытым исходным кодом, известная как AMOS [6], чтобы объединить все инновации в технологии сборки генома в рамках открытой исходной структуры.

Стратегия того, как сборщик последовательностей будет брать фрагменты (показаны под черной полосой) и сопоставлять перекрытия между ними для сборки окончательной последовательности (черного цвета). Потенциально проблемные повторы показаны над последовательностью (розового цвета выше). Без перекрывающихся фрагментов может быть невозможно отнести эти сегменты к какой-либо конкретной области.

стандартное восточное время

Экспрессированная последовательность тега или сборка EST была ранней стратегией, датируемой серединой 1990-х и серединой 2000-х годов, для сборки отдельных генов, а не целых геномов. [7] Проблема отличается от сборки генома несколькими способами. Входные последовательности для сборки EST являются фрагментами транскрибированной мРНК клетки и представляют собой лишь подмножество всего генома. [7] Ряд алгоритмических проблем различаются между сборкой генома и EST. Например, геномы часто имеют большое количество повторяющихся последовательностей, сосредоточенных в межгенных областях. Транскрибированные гены содержат гораздо меньше повторов, что делает сборку несколько проще. С другой стороны, некоторые гены экспрессируются (транскрибируются) в очень больших количествах (например, гены домашнего хозяйства ), что означает, что в отличие от полногеномного дробовика секвенирования, чтения неравномерно выбираются по всему геному.

Сборка EST значительно усложняется такими особенностями, как (цис-) альтернативный сплайсинг , транс-сплайсинг , однонуклеотидный полиморфизм и посттранскрипционная модификация . Начиная с 2008 года, когда был изобретен RNA-Seq , секвенирование EST было заменено этой гораздо более эффективной технологией, описанной в разделе «сборка транскриптома de novo» .

De-novo против сборки карт

С точки зрения сложности и временных требований сборки de-novo на порядок медленнее и требуют больше памяти, чем сборки карт. Это в основном связано с тем, что алгоритм сборки должен сравнивать каждое чтение с каждым другим чтением (операция, имеющая наивную временную сложность O( n 2 )). Текущие сборщики генома de-novo могут использовать различные типы графовых алгоритмов, такие как: [8]

Ссылаясь на сравнение с измельченными книгами, проведенное во введении: в то время как для картографических сборок в качестве шаблона можно было бы использовать очень похожую книгу (возможно, с измененными именами главных героев и несколькими местами), сборки de-novo представляют собой более сложную задачу, поскольку заранее неизвестно, станет ли это научной книгой, романом, каталогом или даже несколькими книгами. Кроме того, каждый клочок будет сравниваться с каждым другим клочком.

Обработка повторов в сборке de-novo требует построения графа, представляющего соседние повторы. Такая информация может быть получена путем чтения длинного фрагмента, охватывающего повторы полностью или только два его конца . С другой стороны, в сборке отображения части с несколькими совпадениями или без совпадений обычно оставляются для изучения другой техникой сборки. [3]

Технологический прогресс

Сложность сборки последовательностей обусловлена ​​двумя основными факторами: числом фрагментов и их длиной. Хотя большее количество и более длинные фрагменты позволяют лучше идентифицировать перекрытия последовательностей, они также создают проблемы, поскольку базовые алгоритмы демонстрируют квадратичное или даже экспоненциальное поведение сложности как для числа фрагментов, так и для их длины. И хотя более короткие последовательности быстрее выравниваются, они также усложняют фазу компоновки сборки, поскольку более короткие чтения сложнее использовать с повторами или почти идентичными повторами.

На заре секвенирования ДНК ученые могли получить лишь несколько коротких последовательностей (несколько десятков оснований) после недель работы в лабораториях. Следовательно, эти последовательности можно было выровнять вручную за несколько минут.

В 1975 году был изобретен метод дидезокситерминации (также известный как секвенирование по Сэнгеру ), и вскоре после 2000 года технология была усовершенствована до такой степени, что полностью автоматизированные машины могли штамповать последовательности в высокопараллельном режиме 24 часа в сутки. Крупные геномные центры по всему миру размещали полные фермы этих секвенирующих машин, что, в свою очередь, привело к необходимости оптимизации ассемблеров для последовательностей из проектов по дробовому секвенированию всего генома , где считывания

С технологией Сэнгера бактериальные проекты с 20 000–200 000 прочтений можно было легко собрать на одном компьютере. Более крупные проекты, такие как человеческий геном с примерно 35 миллионами прочтений, требовали больших вычислительных ферм и распределенных вычислений.

К 2004/2005 году пиросеквенирование было выведено на коммерческую основу компанией 454 Life Sciences . [9] Этот новый метод секвенирования генерировал считывания, намного более короткие, чем считывания по Сэнгеру: изначально около 100 оснований, теперь 400-500 оснований. [9] Его гораздо более высокая пропускная способность и более низкая стоимость (по сравнению с секвенированием по Сэнгеру) подтолкнули принятие этой технологии геномными центрами, что, в свою очередь, подтолкнуло разработку ассемблеров последовательностей, которые могли бы эффективно обрабатывать наборы считываний. Огромный объем данных в сочетании с технологически специфичными шаблонами ошибок в считываниях задержали разработку ассемблеров; в начале 2004 года был доступен только ассемблер Newbler от 454. Выпущенная в середине 2007 года гибридная версия ассемблера MIRA от Chevreux et al. [10] был первым свободно доступным ассемблером, который мог собирать 454 прочтения, а также смеси 454 прочтений и прочтений Сэнгера. Сборка последовательностей из разных технологий секвенирования впоследствии была названа гибридной сборкой . [10]

С 2006 года доступна технология Illumina (ранее Solexa), которая может генерировать около 100 миллионов прочтений за один запуск на одной машине для секвенирования. Сравните это с 35 миллионами прочтений проекта человеческого генома, на которые потребовалось несколько лет для производства на сотнях машин для секвенирования. [11] Первоначально Illumina была ограничена длиной всего в 36 оснований, что делало ее менее подходящей для сборки de novo (например, сборки транскриптома de novo ), но более новые итерации технологии достигают длины прочтений более 100 оснований с обоих концов клона 3-400 п.н. [11] Анонсированный в конце 2007 года ассемблер SHARCGS [12] Домом и др. был первым опубликованным ассемблером, который использовался для сборки с прочтениями Solexa. За ним быстро последовал ряд других.

Позже были выпущены новые технологии, такие как SOLiD от Applied Biosystems , Ion Torrent и SMRT , и новые технологии (например, секвенирование нанопор ) продолжают появляться. Несмотря на более высокий уровень ошибок этих технологий, они важны для сборки, поскольку их более длинная длина считывания помогает решить проблему повторения. [11] Невозможно собрать через идеальный повтор, который длиннее максимальной длины считывания; однако, по мере того, как считывания становятся длиннее, вероятность идеального повторения такого размера становится малой. Это дает более длинным считываниям секвенирования преимущество в сборке повторов, даже если они имеют низкую точность (~85%). [11]

Контроль качества

Большинство сборщиков последовательностей имеют некоторые встроенные алгоритмы для контроля качества, такие как Phred . [13] Однако такие меры не оценивают полноту сборки с точки зрения содержания генов. Некоторые инструменты оценивают качество сборки постфактум.

Например, BUSCO (Benchmarking Universal Single-Copy Orthologs) является мерой полноты генов в геноме, наборе генов или транскриптоме , используя тот факт, что многие гены присутствуют только как гены с одной копией в большинстве геномов. [14] Первоначальные наборы BUSCO представляли 3023 гена для позвоночных , 2675 для членистоногих , 843 для метазоа , 1438 для грибов и 429 для эукариот . В этой таблице показан пример для геномов человека и плодовой мушки: [14]

Алгоритмы сборки

Различные организмы имеют в своем геноме отдельную область более высокой сложности. Следовательно, необходимы различные вычислительные подходы. Некоторые из наиболее часто используемых алгоритмов:

Учитывая набор фрагментов последовательности, цель состоит в том, чтобы найти более длинную последовательность, содержащую все фрагменты (см. рисунок в разделе « Типы сборки последовательностей» ):

  1. Рассчитайте попарные выравнивания всех фрагментов.
  2. Выберите два фрагмента с наибольшим перекрытием.
  3. Объединить выбранные фрагменты.
  4. Повторяйте шаги 2 и 3, пока не останется только один фрагмент.

Результат может оказаться не оптимальным решением проблемы.

Биоинформатический трубопровод

В целом, сборка результатов секвенирования в каркас состоит из трех этапов:

  1. Предварительная сборка: Этот шаг необходим для обеспечения целостности анализа ниже по течению, например, вызова вариантов или окончательной последовательности скаффолда. Этот шаг состоит из двух хронологических рабочих процессов:
    1. Проверка качества: в зависимости от типа технологии секвенирования могут возникнуть различные ошибки, которые могут привести к ложному вызову основания . Например, секвенирование «NAAAAAAAAAAAAN» и «NAAAAAAAAAAAAN», которые включают 12 аденинов, может быть ошибочно вызвано с 11 аденинами вместо этого. Секвенирование высокоповторяющегося сегмента целевой ДНК/РНК может привести к вызову, который на одно основание короче или на одно основание длиннее. Качество считывания обычно измеряется с помощью Phred , который представляет собой закодированную оценку качества каждого нуклеотида в последовательности считывания. Некоторые технологии секвенирования, такие как PacBio, не имеют метода оценки для своих секвенированных считываний. Распространенным инструментом, используемым на этом этапе, является FastQC. [16]
    2. Фильтрация чтений: чтения, не прошедшие проверку качества, следует удалить из файла FASTQ , чтобы получить наилучшие контиги сборки.
  2. Сборка: На этом этапе выравнивание прочтений будет использоваться с различными критериями для сопоставления каждого прочтения с возможным местоположением. Предсказанная позиция прочтения основана либо на том, насколько его последовательность совпадает с другими прочтениями, либо на ссылке. Для прочтений с различными технологиями секвенирования используются различные алгоритмы выравнивания. Некоторые из наиболее часто используемых подходов при сборке — это граф де Брейна и перекрытие. Длина прочтения, покрытие , качество и используемая техника секвенирования играют важную роль в выборе наилучшего алгоритма выравнивания в случае секвенирования следующего поколения . [17] С другой стороны, алгоритмы выравнивания прочтений секвенирования 3-го поколения требуют передовых подходов для учета высокой частоты ошибок, связанных с ними.
  3. Постсборка: Этот шаг фокусируется на извлечении ценной информации из собранной последовательности. Сравнительная геномика и популяционный анализ являются примерами постсборочного анализа.

Программы

Список de-novo ассемблеров см. в разделе De novo sequence assemblers . Список картирующих выравнивателей см. в разделе List of sequence alignment software § Short-read sequence alignment .

Некоторые из распространенных инструментов, используемых на различных этапах сборки, перечислены в следующей таблице:

Смотрите также

Ссылки

  1. ^ abc Sohn JI, Nam JW (январь 2018 г.). «Настоящее и будущее de novo сборки целого генома». Briefings in Bioinformatics . 19 (1): 23–40. doi :10.1093/bib/bbw096. PMID  27742661.
  2. ^ ab Baker M (27 марта 2012 г.). «Сборка генома de novo: что должен знать каждый биолог». Nature Methods . 9 (4): 333–337. doi :10.1038/nmeth.1935. ISSN  1548-7105.
  3. ^ abc Wolf B. "Сборка генома de novo против сопоставления с референтным геномом" (PDF) . Университет прикладных наук Западной Швейцарии . Получено 6 апреля 2019 г. .
  4. ^ Myers EW, Sutton GG, Delcher AL, Dew IM, Fasulo DP, Flanigan MJ и др. (март 2000 г.). «Полногеномная сборка дрозофилы». Science . 287 (5461): 2196–2204. Bibcode :2000Sci...287.2196M. CiteSeerX 10.1.1.79.9822 . doi :10.1126/science.287.5461.2196. PMID  10731133. S2CID  6049420. 
  5. ^ Batzoglou S, Jaffe DB, Stanley K, Butler J, Gnerre S, Mauceli E и др. (январь 2002 г.). «ARACHNE: ассемблер для всего генома». Genome Research . 12 (1): 177–189. doi :10.1101/gr.208902. PMC 155255. PMID  11779843 . 
  6. ^ "AMOS WIKI". amos.sourceforge.net . Получено 2023-01-02 .
  7. ^ ab Nagaraj SH, Gasser RB, Ranganathan S (январь 2007 г.). «Руководство для автостопщиков по анализу экспрессируемых последовательностей (EST)». Briefings in Bioinformatics . 8 (1): 6–21. doi :10.1093/bib/bbl015. PMID  16772268.
  8. ^ Li Z, Chen Y, Mu D, Yuan J, Shi Y, Zhang H и др. (январь 2012 г.). «Сравнение двух основных классов алгоритмов сборки: перекрытие-компоновка-консенсус и де-брейн-граф». Briefings in Functional Genomics . 11 (1): 25–37. doi :10.1093/bfgp/elr035. PMID  22184334.
  9. ^ ab Harrington CT, Lin EI, Olson MT, Eshleman JR (сентябрь 2013 г.). «Основы пиросеквенирования». Архивы патологии и лабораторной медицины . 137 (9): 1296–1303. doi :10.5858/arpa.2012-0463-RA. PMID  23991743.
  10. ^ ab "MIRA 2.9.8 для 454 и 454 / гибридная сборка Sanger". groups.google.com . Получено 2023-01-02 .
  11. ^ abcd Hu T, Chitnis N, Monos D, Dinh A (ноябрь 2021 г.). «Технологии секвенирования следующего поколения: обзор». Иммунология человека . Секвенирование следующего поколения и его применение в медицинской лабораторной иммунологии. 82 (11): 801–811. doi :10.1016/j.humimm.2021.02.012. PMID  33745759.
  12. ^ Dohm JC, Lottaz C, Borodina T, Himmelbauer H (ноябрь 2007 г.). «SHARCGS, быстрый и высокоточный алгоритм сборки коротких прочтений для геномного секвенирования de novo». Genome Research . 17 (11): 1697–1706. doi :10.1101/gr.6435207. PMC 2045152 . PMID  17908823. 
  13. ^ Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с оценками качества и варианты Solexa/Illumina FASTQ». Nucleic Acids Research . 38 (6): 1767–1771. doi :10.1093/nar/gkp1137. PMC 2847217. PMID  20015970 . 
  14. ^ ab Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM (октябрь 2015 г.). "BUSCO: оценка сборки генома и полноты аннотации с помощью однокопийных ортологов". Bioinformatics . 31 (19): 3210–3212. doi :10.1093/bioinformatics/btv351. PMID  26059717.
  15. ^ Compeau PE, Pevzner PA, Tesler G (ноябрь 2011 г.). «Как применить графы де Брейна к сборке генома». Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759 . PMID  22068540. 
  16. ^ "Babraham Bioinformatics - FastQC A Quality Control Tool for High Throughput Sequence Data". www.bioinformatics.babraham.ac.uk . Получено 2022-05-09 .
  17. ^ Ruffalo M, LaFramboise T, Koyutürk M (октябрь 2011 г.). «Сравнительный анализ алгоритмов для выравнивания прочтений секвенирования следующего поколения». Биоинформатика . 27 (20): 2790–2796. doi : 10.1093/bioinformatics/btr477 . PMID  21856737.
  18. ^ Vasimuddin M, Misra S, Li H, Aluru S (май 2019 г.). «Эффективное архитектурно-ориентированное ускорение BWA-MEM для многоядерных систем». IEEE International Parallel and Distributed Processing Symposium (IPDPS) 2019 г. IEEE. стр. 314–324. arXiv : 1907.12931 . doi :10.1109/IPDPS.2019.00041. ISBN 978-1-7281-1246-6.
  19. ^ Jung Y, Han D (2022-03-07). «BWA-MEME: BWA-MEM, эмулируемый с помощью подхода машинного обучения». Биоинформатика . 38 (9): 2404–2413. doi :10.1093/bioinformatics/btac137. ISSN  1367-4803.