stringtranslate.com

Теория секвенирования ДНК

Теория секвенирования ДНК — это обширный объем работ, который пытается заложить аналитические основы для определения порядка конкретных нуклеотидов в последовательности ДНК , иначе известной как секвенирование ДНК . Практические аспекты вращаются вокруг проектирования и оптимизации проектов секвенирования (известных как «стратегическая геномика»), прогнозирования производительности проекта, устранения неполадок в экспериментальных результатах, характеристики таких факторов, как смещение последовательности и эффекты алгоритмов обработки программного обеспечения, а также сравнения различных методов секвенирования друг с другом. В этом смысле ее можно считать отраслью системной инженерии или операционных исследований . Постоянный архив работ в первую очередь математический, хотя численные расчеты часто проводятся и для конкретных задач. Теория секвенирования ДНК рассматривает физические процессы, связанные с секвенированием ДНК, и ее не следует путать с теориями анализа полученных последовательностей ДНК, например, выравниванием последовательностей . Публикации [1] иногда не проводят четкого различия, но последние в первую очередь касаются алгоритмических вопросов. Теория секвенирования основана на элементах математики , биологии и системной инженерии , поэтому она является в высшей степени междисциплинарной. Предмет может изучаться в контексте вычислительной биологии .

Теория и стратегии секвенирования

Последовательность как проблема покрытия

Все основные методы секвенирования ДНК основаны на чтении небольших фрагментов ДНК и последующей реконструкции этих данных для выведения исходной целевой ДНК либо через сборку , либо через выравнивание по отношению к эталону. Абстракция, общая для этих методов, заключается в математической проблеме покрытия . [2] Например, можно представить себе отрезок линии, представляющий цель, и последующий процесс, в котором меньшие сегменты «сбрасываются» на случайные места цели. Цель считается «секвенированной», когда накапливается адекватное покрытие (например, когда не остается пробелов).

Абстрактные свойства покрытия изучались математиками более века. [3] Однако прямое применение этих результатов, как правило, не было возможным. Математические решения в замкнутой форме, особенно для распределений вероятностей, часто не могут быть легко оценены. То есть, они требуют необычно большого количества компьютерного времени для параметров, характерных для секвенирования ДНК . Конфигурация Стивенса является одним из таких примеров. [4] Результаты, полученные с точки зрения чистой математики, также не учитывают факторы, которые на самом деле важны для секвенирования, например, обнаруживаемое перекрытие фрагментов секвенирования, двойную спираль, краевые эффекты и множественность целей. Следовательно, развитие теории секвенирования происходило в большей степени в соответствии с философией прикладной математики . В частности, она была ориентирована на проблему и целесообразно использовала приближения, моделирование и т. д.

Раннее использование, основанное на элементарной теории вероятностей

Самый ранний результат может быть найден непосредственно из элементарной теории вероятностей. Предположим, что мы моделируем вышеописанный процесс, принимая и как длину фрагмента и длину цели соответственно. Вероятность «покрытия» любого заданного места на цели одним конкретным фрагментом тогда равна . (Это предполагает , что часто справедливо, но не для всех реальных случаев.) Вероятность того, что один фрагмент не покрывает заданное место на цели, поэтому равна , и для фрагментов. Вероятность покрытия заданного места на цели по крайней мере одним фрагментом поэтому равна

Это уравнение впервые было использовано для характеристики плазмидных библиотек, [5], но оно может появиться в измененной форме. Для большинства проектов , так что, с хорошей степенью приближения

где называется избыточностью . Обратите внимание на значимость избыточности как представления среднего числа раз, когда позиция покрыта фрагментами. Обратите внимание также, что при рассмотрении процесса покрытия по всем позициям в цели эта вероятность идентична ожидаемому значению случайной величины , доли покрытия цели. Окончательный результат,

по-прежнему широко используется в качестве « приблизительного » оценщика и предсказывает, что покрытие всех проектов развивается по универсальной кривой, которая является функцией только избыточности.

Теория Ландера-Уотермана

В 1988 году Эрик Ландер и Майкл Уотерман опубликовали важную работу [6], в которой рассматривали проблему покрытия с точки зрения пробелов. Хотя они сосредоточились на так называемой проблеме картирования , абстракция для секвенирования во многом та же самая. Они представили ряд полезных результатов, которые были приняты в качестве стандартной теории с самых ранних дней «крупномасштабного» секвенирования генома. [7] Их модель также использовалась при разработке проекта «Геном человека » и продолжает играть важную роль в секвенировании ДНК.

В конечном счете, главная цель проекта секвенирования — закрыть все пробелы, поэтому «перспектива пробела» была логической основой разработки модели секвенирования. Одним из наиболее часто используемых результатов этой модели является ожидаемое количество контигов , учитывая количество секвенированных фрагментов. Если пренебречь объемом последовательности, который по сути «тратится впустую» из-за необходимости обнаружения перекрытий, их теория дает

В 1995 году Роуч [8] опубликовал усовершенствования этой теории, что позволило применить ее к проектам по секвенированию, в которых целью было полное секвенирование целевого генома. Майкл Вендл и Боб Уотерстон [9] подтвердили, основываясь на методе Стивенса [4] , что обе модели давали схожие результаты, когда число контигов было значительным, например, в проектах по картированию с низким покрытием или секвенированию. По мере того, как проекты по секвенированию набирали обороты в 1990-х годах и приближались к завершению, приближения с низким покрытием становились неадекватными, и требовалась точная модель Роуча. Однако по мере снижения стоимости секвенирования параметры проектов по секвенированию становилось проще проверять эмпирически, а интерес и финансирование стратегической геномики уменьшались.

Основные идеи теории Ландера–Уотермана привели к ряду дополнительных результатов для конкретных вариаций методов картирования. [10] [11] [12] Однако технический прогресс сделал теории картирования в значительной степени устаревшими, за исключением организмов, отличных от хорошо изученных модельных организмов (например, дрожжей, мух, мышей и людей).

Стратегия парковки

Стратегия парковки для секвенирования напоминает процесс парковки автомобилей вдоль бордюра. Каждый автомобиль является секвенированным клоном, а бордюр является геномной целью. [13] Каждый секвенированный клон проверяется, чтобы гарантировать, что последовательно секвенированные клоны не перекрывают какой-либо ранее секвенированный клон. Никакие усилия по секвенированию не являются избыточными в этой стратегии. Однако, как и промежутки между припаркованными автомобилями, несеквенированные промежутки, меньшие длины клона, накапливаются между секвенированными клонами. Закрытие таких промежутков может быть значительным.

Парное секвенирование концов

В 1995 году Роуч и др. [14] предложили и продемонстрировали с помощью моделирования обобщение набора стратегий, ранее исследованных Эдвардсом и Каски. [15] Этот метод секвенирования всего генома стал чрезвычайно популярным, поскольку его пропагандировала компания Celera , и он использовался для секвенирования нескольких модельных организмов, прежде чем Celera применила его к геному человека. Сегодня большинство проектов по секвенированию используют эту стратегию, часто называемую секвенированием парных концов.

Достижения проекта «Геном человека»

Физические процессы и протоколы секвенирования ДНК продолжают развиваться, в основном за счет достижений в области биохимических методов, инструментов и методов автоматизации. В настоящее время существует широкий спектр проблем, в которые проникло секвенирование ДНК , включая метагеномику и медицинское (раковое) секвенирование . В этих сценариях есть важные факторы, которые классическая теория не учитывает. Недавние работы начали фокусироваться на разрешении последствий некоторых из этих проблем. Уровень математики становится соразмерно более сложным.

Различные артефакты секвенирования с большой вставкой

Биологи разработали методы фильтрации высокоповторяющихся, по существу несеквенируемых областей геномов. Эти процедуры важны для организмов, геномы которых состоят в основном из такой ДНК, например, кукурузы. Они дают множество небольших островков секвенируемых продуктов ДНК. Вендл и Барбазук [16] предложили расширение теории Ландера–Уотермана для учета «пробелов» в мишени из-за фильтрации и так называемого «краевого эффекта». Последнее представляет собой смещение выборки, специфичное для позиции, например, позиция терминального основания имеет только шанс быть покрытой, в отличие от внутренних позиций. Для классическая теория Ландера–Уотермана по-прежнему дает хорошие прогнозы, но динамика меняется для более высоких избыточностей.

Современные методы секвенирования обычно секвенируют оба конца более крупного фрагмента, что обеспечивает связывающую информацию для сборки de novo и повышает вероятность выравнивания с референтной последовательностью. Исследователи обычно полагают, что большая длина данных (длина прочтений) повышает производительность для очень больших целей ДНК, идея, согласующаяся с прогнозами моделей распределения. [17] Однако Вендл [18] показал, что более мелкие фрагменты обеспечивают лучшее покрытие для небольших линейных целей, поскольку они уменьшают эффект края в линейных молекулах. Эти результаты имеют значение для секвенирования продуктов процедур фильтрации ДНК. Спаривание прочтений и размер фрагмента, очевидно, оказывают незначительное влияние на большие цели класса целого генома.

Индивидуальное и популяционное секвенирование

Секвенирование становится важным инструментом в медицине, например, в исследованиях рака. Здесь важна способность обнаруживать гетерозиготные мутации , и это можно сделать только в том случае, если получена последовательность диплоидного генома . В пионерских усилиях по секвенированию людей Леви и др. [19] и Уилер и др. [20], которые секвенировали Крейга Вентера и Джима Уотсона , соответственно, изложили модели для покрытия обоих аллелей в геноме. Вендл и Уилсон [21] последовали за ними с более общей теорией, которая допускала произвольное количество покрытий каждого аллеля и произвольную плоидность . Эти результаты указывают на общий вывод о том, что объем данных, необходимых для таких проектов, значительно выше, чем для традиционных гаплоидных проектов. Как правило, по крайней мере 30-кратная избыточность, т. е. каждый нуклеотид, охватываемый в среднем 30 прочтениями последовательности, теперь является стандартом. [22] Однако требования могут быть еще выше, в зависимости от того, какие виды геномных событий необходимо обнаружить. Например, в так называемом «методе несогласованных пар прочтений» можно сделать вывод о вставках ДНК, если расстояние между парами прочтений больше ожидаемого. Расчеты показывают, что для избежания ложноположительных ошибок при пороге в 1% требуется около 50-кратная избыточность. [23]

Появление секвенирования следующего поколения также сделало возможным крупномасштабное популяционное секвенирование, например, проект 1000 Genomes Project для характеристики вариаций в группах человеческой популяции. В то время как распространенные вариации легко улавливаются, редкие вариации представляют собой проблему проектирования: слишком мало образцов со значительной избыточностью последовательностей рискуют не иметь варианта в группе образцов, но большие образцы с небольшой избыточностью рискуют не уловить вариант в наборе считываний, который фактически есть в группе образцов. Вендл и Уилсон [24] сообщают о простом наборе правил оптимизации, которые максимизируют вероятность обнаружения для данного набора параметров. Например, для наблюдения редкого аллеля по крайней мере дважды (чтобы исключить возможность уникальности для отдельного человека) следует использовать немного менее 4-кратной избыточности, независимо от размера выборки.

Метагеномное секвенирование

Инструменты следующего поколения теперь также позволяют секвенировать целые некультивируемые метагеномные сообщества. Сценарий секвенирования здесь более сложен, и существуют различные способы создания теорий дизайна для данного проекта. Например, Стэнхоуп [25] разработал вероятностную модель для количества последовательности, необходимого для получения по крайней мере одного контига заданного размера от каждого нового организма сообщества, в то время как Вендл и др. сообщили об анализе для среднего размера контига или вероятности полного восстановления нового организма для заданной редкости в пределах сообщества. [26] Напротив, Хупер и др. предлагают полуэмпирическую модель, основанную на гамма-распределении . [27]

Ограничения

Теории секвенирования ДНК часто ссылаются на предположение, что определенные случайные переменные в модели независимы и одинаково распределены . Например, в теории Ландера-Уотермана предполагается, что секвенированный фрагмент имеет одинаковую вероятность покрытия каждой области генома, и все фрагменты считаются независимыми друг от друга. В действительности проекты секвенирования подвержены различным типам смещений, включая различия в том, насколько хорошо области могут быть клонированы, аномалии секвенирования, смещения в целевой последовательности (которая не является случайной) и ошибки и смещения, зависящие от программного обеспечения. В целом, теория будет хорошо согласовываться с наблюдением до тех пор, пока не будет получено достаточно данных для выявления скрытых смещений. [21] Виды смещений, связанных с базовой целевой последовательностью, особенно трудно моделировать, поскольку сама последовательность может быть неизвестна априори . Это представляет собой своего рода проблему Catch-22 (логическую) .

Смотрите также

Ссылки

  1. ^ Уотерман, Майкл С. (1995). Введение в вычислительную биологию . Бока-Ратон: Chapman and Hall/CRC. ISBN 978-0-412-99391-6.
  2. ^ Холл, П. (1988). Введение в теорию процессов покрытия . Нью-Йорк: Wiley. ISBN 978-0-471-85702-0.
  3. ^ Соломон, Х. (1978). Геометрическая вероятность . Филадельфия: Общество промышленной и прикладной математики. ISBN 978-0-898-71025-0.
  4. ^ ab Stevens WL (1939). «Решение геометрической задачи в теории вероятностей». Annals of Eugenics . 9 (4): 315–320. doi : 10.1111/j.1469-1809.1939.tb02216.x .
  5. ^ Кларк Л., Карбон Дж. (1976). «Банк колоний, содержащий синтетические гибридные плазмиды Col-El, представляющие весь геном E. coli». Cell . 9 (1): 91–99. doi :10.1016/0092-8674(76)90055-6. PMID  788919. S2CID  2535372.
  6. ^ Lander ES , Waterman MS (1988). «Геномное картирование с помощью дактилоскопирования случайных клонов: математический анализ». Genomics . 2 (3): 231–239. doi :10.1016/0888-7543(88)90007-9. PMID  3294162.
  7. ^ Fleischmann RD; et al. (1995). "Случайное секвенирование всего генома и сборка Haemophilus influenzae Rd". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800.
  8. ^ Roach JC (1995). «Случайное субклонирование». Genome Research . 5 (5): 464–473. doi : 10.1101/gr.5.5.464 . PMID  8808467.
  9. ^ Wendl MC , Waterston RH (2002). «Обобщенная модель разрыва для картирования отпечатков пальцев искусственных клонов бактериальных хромосом и секвенирования методом дробовика». Genome Research . 12 (12): 1943–1949. doi :10.1101/gr.655102. PMC 187573. PMID  12466299 . 
  10. ^ Arratia R ; et al. (1991). «Геномное картирование путем закрепления случайных клонов: математический анализ». Genomics . 11 (4): 806–827. CiteSeerX 10.1.1.80.8788 . doi :10.1016/0888-7543(91)90004-X. PMID  1783390. 
  11. ^ Порт Э. и др. (1995). «Геномное картирование с помощью конечных случайных клонов: математический анализ». Genomics . 26 (1): 84–100. CiteSeerX 10.1.1.74.4380 . doi :10.1016/0888-7543(95)80086-2. PMID  7782090. 
  12. ^ Чжан М. К., Марр Т. Г. (1993). «Картирование генома с помощью неслучайного закрепления: дискретный теоретический анализ». Труды Национальной академии наук . 90 (2): 600–604. Bibcode : 1993PNAS...90..600Z. doi : 10.1073 /pnas.90.2.600 . PMC 45711. PMID  8421694. 
  13. ^ Roach JC; et al. (2000). «Стратегии парковки для секвенирования генома». Genome Research . 10 (7): 1020–1030. doi : 10.1101/gr.10.7.1020. PMC 310895. PMID  10899151. 
  14. ^ Roach JC, Boysen C, Wang K, Hood L (1995). «Парное конечное секвенирование: унифицированный подход к геномному картированию и секвенированию». Genomics . 26 (2): 345–353. doi :10.1016/0888-7543(95)80219-C. PMID  7601461.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Эдвардс, А.; Каски, Т. (1991). Стратегии закрытия для случайного секвенирования ДНК . Том 3. Сопутствующие методы в энзимологии. С. 41–47.
  16. ^ Wendl MC , Barbazuk WB (2005). «Расширение теории Ландера–Уотермана для секвенирования отфильтрованных библиотек ДНК». BMC Bioinformatics . 6 : статья 245. doi : 10.1186/1471-2105-6-245 . PMC 1280921. PMID  16216129 . 
  17. ^ Wendl MC (2006). «Моделирование занятости распределения покрытия для полногеномного дробовика ДНК секвенирования». Бюллетень математической биологии . 68 (1): 179–196. doi :10.1007/s11538-005-9021-4. PMID  16794926. S2CID  23889071.
  18. ^ Wendl MC (2006). «Общая теория покрытия для дробовика ДНК секвенирования». Журнал вычислительной биологии . 13 (6): 1177–1196. doi :10.1089/cmb.2006.13.1177. PMID  16901236. S2CID  17112274.
  19. ^ Levy S; et al. (2007). «Диплоидная последовательность генома отдельного человека». PLOS Biology . 5 (10): статья e254. doi : 10.1371/journal.pbio.0050254 . PMC 1964779. PMID  17803354 . 
  20. ^ Wheeler DA; et al. (2008). «Полный геном человека с помощью массивного параллельного секвенирования ДНК». Nature . 452 (7189): 872–876. Bibcode :2008Natur.452..872W. doi : 10.1038/nature06884 . PMID  18421352.
  21. ^ ab Wendl MC , Wilson RK (2008). «Аспекты покрытия в медицинском секвенировании ДНК». BMC Bioinformatics . 9 : статья 239. doi : 10.1186/1471-2105-9-239 . PMC 2430974. PMID 18485222  . 
  22. ^ Ley TJ ; et al. (2008). «ДНК-секвенирование цитогенетически нормального генома острого миелоидного лейкоза». Nature . 456 (7218): 66–72. Bibcode :2008Natur.456...66L. doi :10.1038/nature07485. PMC 2603574 . PMID  18987736. 
  23. ^ Wendl MC , Wilson RK (2009). "Статистические аспекты распознавания структурных вариаций типа инделей посредством выравнивания последовательностей ДНК". BMC Genomics . 10 : статья 359. doi : 10.1186/1471-2164-10-359 . PMC 2748092. PMID  19656394 . 
  24. ^ Wendl MC , Wilson RK (2009). «Теория обнаружения редких вариантов с помощью секвенирования ДНК». BMC Genomics . 10 : статья 485. doi : 10.1186/1471-2164-10-485 . PMC 2778663. PMID  19843339 . 
  25. ^ Stanhope SA (2010). "Моделирование занятости, максимальные вероятности размера контига и планирование экспериментов по метагеномике". PLOS ONE . 5 (7): статья e11652. Bibcode : 2010PLoSO...511652S. doi : 10.1371/journal.pone.0011652 . PMC 2912229. PMID  20686599 . 
  26. ^ Wendl MC ; et al. (2012). «Теории покрытия для метагеномного секвенирования ДНК на основе обобщения теоремы Стивенса». Журнал математической биологии . 67 (5): 1141–1161. doi :10.1007/s00285-012-0586-x. PMC 3795925 . PMID  22965653. 
  27. ^ Хупер SD; и др. (2010). «Оценка покрытия ДНК и распространенности в метагеномах с использованием гамма-аппроксимации». Биоинформатика . 26 (3): 295–301. doi :10.1093/bioinformatics/btp687. PMC 2815663. PMID  20008478 .