stringtranslate.com

2 базовая кодировка

Двухосновная схема кодирования. В двухосновной схеме кодирования каждой уникальной паре оснований на 3'-конце зонда назначается один из четырех возможных цветов. Например, «AA» назначается синему, «AC» назначается зеленому и так далее для всех 16 уникальных пар. Во время секвенирования каждое основание в шаблоне секвенируется дважды, и полученные данные декодируются в соответствии с этой схемой.

2 Base Encoding , также называемое SOLiD ( секвенирование путем лигирования и обнаружения олигонуклеотидов ), является технологией секвенирования следующего поколения, разработанной Applied Biosystems и доступной для коммерческого использования с 2008 года. Эти технологии генерируют сотни тысяч небольших прочтений последовательностей за один раз. Известные примеры таких методов секвенирования ДНК включают пиросеквенирование 454 (представлено в 2005 году), систему Solexa (представлено в 2006 году) и систему SOLiD (представлено в 2007 году). Эти методы снизили стоимость с 0,01 долл. США за основание в 2004 году до почти 0,0001 долл. США за основание в 2006 году и увеличили производительность секвенирования с 1 000 000 оснований/машину/день в 2004 году до более чем 100 000 000 оснований/машину/день в 2006 году.

2-основное кодирование основано на лигатурном секвенировании, а не на секвенировании путем синтеза. [1] Однако вместо использования флуоресцентно меченых 9-мерных зондов, которые различают только 6 оснований, 2-основное кодирование использует преимущества флуоресцентно меченых 8-мерных зондов, которые различают два 3 самых главных основания, но могут циклироваться подобно методу Мацевица, таким образом, можно получить более 6 пар оснований (опубликовано 25-50 пар оснований, [2] 50 пар оснований в NCBI в феврале 2008 г.). 2-основное кодирование позволяет дважды считывать каждое основание, не выполняя двойную работу. [3] [4] [5] [6]

Общие характеристики

Общие этапы, общие для многих из этих методов секвенирования следующего поколения, включают:

  1. Случайная фрагментация геномной ДНК
  2. Иммобилизация отдельных фрагментов ДНК на твердой подложке, например, на шарике или плоской твердой поверхности
  3. Амплификация фрагментов ДНК на твердой поверхности с помощью ПЦР и создание колоний полимеразы [7]
  4. Секвенирование и последующее исследование in situ после каждого цикла с использованием флуоресцентного сканирования или хемилюминесценции. [8]

В 1988 году Уайтли и др. продемонстрировали использование лигирования флуоресцентно меченых олигонуклеотидов для обнаружения вариантов ДНК. [9] В 1995 году Мацевич [10] продемонстрировал повторное лигирование олигонуклеотидов для обнаружения смежных вариантов ДНК. В 2003 году Дрессман и др. [11] продемонстрировали использование эмульсионной ПЦР для получения миллионов клонально амплифицированных гранул, на которых можно было проводить эти повторные анализы лигирования. В 2005 году Шендуре и др. провели процедуру секвенирования, которая объединила методы Уайтли и Дрессмана, выполняя лигирование флуоресцентно меченых «вырожденных 8 оснований» 9-мерных зондов, которые различали другое основание в соответствии с меткой зонда и невырожденное основание. Этот процесс был повторен (без регенерации удлиняемого конца, как у Мацевица) с использованием идентичных праймеров, но с зондами с метками, которые идентифицировали различные невырожденные основания для секвенирования прочтений 6 п.н. в направлении 5->3 и прочтений 7 п.н. в направлении 3->5.

Как это работает

Система секвенирования SOLiD использует зонды с двухосновным кодированием.

Основная химия суммируется в следующих этапах: [12]

- Шаг 1, Подготовка библиотеки: Этот шаг начинается с разрезания геномной ДНК на небольшие фрагменты. Затем добавляются два разных адаптера (например, A1 и A2). Полученная библиотека содержит фрагменты ДНК-шаблона, которые помечены одним адаптером на каждом конце (A1-шаблон-A2).

- Шаг 2. Эмульсионная ПЦР: на этом шаге реакция ПЦР эмульсии (капли воды, взвешенные в масле) выполняется с использованием фрагментов ДНК из библиотеки, двух праймеров (P1 и P2), которые дополняют ранее использованные адаптеры (P1 с A1 и P2 с A2), других компонентов реакции ПЦР и 1-мкм гранул, соединенных с одним из праймеров (например, P1), для разбавления библиотеки ДНК с целью максимального увеличения количества капель, содержащих один фрагмент ДНК и одну гранулу, в одной капле эмульсии.

В каждой капле ДНК-матрица отжигается с P1-связанной бусиной со стороны A1. Затем ДНК-полимераза расширяется от P1, чтобы создать комплементарную последовательность, что в конечном итоге приводит к бусине, обогащенной продуктами ПЦР из одной матрицы. После реакции ПЦР матрицы денатурируются и отделяются от бусин. Дрессман и др. впервые описали эту технику в 2003 году.

- Шаг 3, Обогащение бусин: На ​​практике только 30% бусин имеют целевую ДНК. Чтобы увеличить количество бусин, имеющих целевую ДНК, в раствор добавляют большие полистирольные бусины, покрытые A2. Таким образом, любая бусина, содержащая удлиненные продукты, свяжет полистирольную бусинку через ее конец P2. Полученный комплекс будет отделен от нецелевых бусин и расплавлен для диссоциации целевых бусин из полистирола. Этот шаг может увеличить пропускную способность этой системы с 30% до обогащения до 80% после обогащения.

После обогащения 3'-конец продуктов (конец P2) будет модифицирован, что сделает их способными к ковалентному связыванию на следующем этапе. Таким образом, продукты этого этапа представляют собой ДНК-связанные бусины с 3'-модификацией каждой цепи ДНК.

- Шаг 4, осаждение бусин: На ​​этом этапе продукты последнего шага осаждаются на предметном стекле. Бусины прикрепляются к стеклянной поверхности случайным образом через ковалентные связи 3'-модифицированных бусин и стекла.

- Шаг 5, Реакция секвенирования: Как упоминалось ранее, в отличие от других методов следующего поколения, которые выполняют секвенирование через синтез, 2-основное кодирование основано на секвенировании путем лигирования. Лигирование выполняется с использованием специфических 8-мерных зондов:

Эти зонды имеют длину восемь оснований со свободной гидроксильной группой на 3'-конце, флуоресцентным красителем на 5'-конце и сайтом расщепления между пятым и шестым нуклеотидом. Первые два основания (начиная с 3'-конца) комплементарны секвенируемым нуклеотидам. Основания с 3 по 5 являются вырожденными и способны образовывать пары с любыми нуклеотидами в последовательности шаблона. Основания 6-8 также являются вырожденными, но отщепляются вместе с флуоресцентным красителем по мере продолжения реакции. Расщепление флуоресцентного красителя и оснований 6-8 оставляет свободную 5'-фосфатную группу, готовую для дальнейшего лигирования. Таким образом, позиции n+1 и n+2 правильно спарены, за которыми следуют n+6 и n+7, которые правильно спарены, и т. д. Состав оснований n+3, n+4 и n+5 остается неопределенным до дальнейших раундов реакции секвенирования.

Этап секвенирования в основном состоит из пяти раундов, и каждый раунд состоит из примерно 5-7 циклов (рисунок 2). Каждый раунд начинается с добавления универсального праймера, комплементарного P1. Этот праймер имеет, например, n нуклеотидов, и его 5'-конец точно совпадает с 3'-концом P1. В каждом цикле 8-мерные зонды добавляются и лигируются в соответствии с их первым и вторым основаниями. Затем оставшиеся несвязанные зонды вымываются, измеряется флуоресцентный сигнал от связанного зонда, и связанный зонд расщепляется между его пятым и шестым нуклеотидом. Наконец, праймер и зонды все сбрасываются для следующего раунда.

В следующем раунде новый универсальный праймер отжигает позицию n-1 (его 5'-конец совпадает с основанием точно перед 3'-концом P1) и последующие циклы повторяются аналогично первому раунду. Оставшиеся три раунда будут выполнены с новыми универсальными праймерами, отжигающими позиции n-2, n-3 и n-4 относительно 3'-конца P1.

Полная реакция из пяти раундов позволяет секвенировать около 25 пар оснований шаблона из P1.

- Шаг 6, Декодирование данных: Для декодирования данных, которые представлены в виде цветов, мы должны сначала знать два важных фактора. Во-первых, мы должны знать, что каждый цвет указывает на два основания. Во-вторых, нам нужно знать одно из оснований в последовательности: это основание включено в последовательность в последнем (пятом) раунде шага 5. Это известное основание является последним нуклеотидом 3'-конца известного P1. Следовательно, поскольку каждый цвет представляет два нуклеотида, в которых второе основание каждой динуклеотидной единицы составляет первое основание следующего динуклеотида, знание только одного основания в последовательности приведет нас к интерпретации всей последовательности (рисунок 2). [13]

2. Соображения по поводу базовой кодировки

На практике прямой перевод цветовых считываний в базовые считывания не рекомендуется, так как в момент, когда вы сталкиваетесь с ошибкой в ​​цветовых вызовах, это приведет к сдвигу кадров базовых вызовов. Чтобы наилучшим образом использовать свойства «коррекции ошибок» двухбазового кодирования, лучше всего преобразовать вашу базовую последовательность ссылок в цветовое пространство. Существует одно однозначное преобразование базовой последовательности ссылок в цветовое пространство, и хотя обратное также верно, преобразование может быть крайне неточным, если есть какие-либо ошибки секвенирования. [14]

Сопоставление цветовых считываний с эталоном цветового пространства может правильно использовать правила кодирования двух баз, где только смежные цветовые различия могут представлять истинный базовый полиморфизм. Прямое декодирование или перевод цветовых считываний в базы не может сделать это эффективно без других знаний.

Точнее, этот метод не является инструментом исправления ошибок, а инструментом преобразования ошибок. Цветовое пространство преобразует ваш наиболее распространенный режим ошибок (единичные ошибки измерения) в частоту, отличную от вашей наиболее распространенной формы вариации ДНК (SNP или изменения одного основания). Эти изменения одного основания влияют на смежные цвета в цветовом пространстве. Существуют логические правила, которые помогают исправлять смежные ошибки в «допустимые» и «недопустимые» смежные ошибки.

Вероятность получения двух смежных ошибок в 50-пн прочтении можно оценить. Существует 49 способов внесения смежных изменений в 50-буквенную строку (50-пн прочтение). Существует 1225 способов внесения несмежных изменений в 50-буквенную строку (50 выбирают 2). Упрощенно, если предположить, что ошибки полностью случайны (они обычно более часто встречаются в конце прочтений), то только 49 из 1225 ошибок будут кандидатами на SNP. Кроме того, только треть смежных ошибок могут быть действительными ошибками в соответствии с известной маркировкой зондов, таким образом, предоставляя только 16 из 1225 ошибок, которые могут быть кандидатами на SNP. Это особенно полезно для обнаружения SNP с низким покрытием, поскольку это снижает ложные срабатывания при низком покрытии, Смит и др. [15]

Преимущества

Каждое основание в этом методе секвенирования считывается дважды. Это изменяет цвет двух соседних вызовов цветового пространства, поэтому для того, чтобы неправильно назвать SNP, два соседних цвета должны быть неправильно названы. Из-за этого скорость неправильного вызова SNP составляет порядка e^2, где e — скорость ошибки устройства.

Недостатки

При вызове основания одиночные цветовые ошибки вызывают ошибки в оставшейся части чтения. При вызове SNP это можно исправить, что приводит к более низкому уровню ошибок вызова SNP. Однако для упрощенной сборки de novo у вас остается уровень ошибок необработанного устройства, который будет значительно выше, чем 0,06%, сообщенные для вызова SNP. Качественная фильтрация считываний может обеспечить более высокую точность необработанных считываний, которые при выравнивании для формирования цветовых контигов могут предоставить референтные последовательности, где 2-основное кодирование может быть лучше использовано. Гибридные сборки с другими технологиями также могут лучше использовать 2-основное кодирование.

Смотрите также

Ссылки

  1. ^ Джей Шендуре и др. (2005) Точное мультиплексное секвенирование полонии генома эволюционировавшей бактерии. Science 309(5741), 1728 - 1732
  2. ^ Последовательность и структурные вариации в геноме человека, обнаруженные с помощью секвенирования методом короткого прочтения и массового параллельного лигирования с использованием двухосновного кодирования. МакКернан К.Дж., Пекхэм Х.Э., Коста Г.Л., Маклафлин С.Ф., Фу Ю, Цунг Э.Ф., Клоузер Ч.Р., Дункан С., Итикава Дж.К., Ли CC, Чжан З., Ранаде С.С., Дималанта Э.Т., Хайланд Ф.К., Сокольски Т.Д., Чжан Л., Шеридан А., Фу Х., Хендриксон К.Л., Ли Б., Котлер Л., Стюарт Дж.Р., Малек Дж.А., Мэннинг Дж.М., Антипова А.А., Перес Д.С., Мур М.П., ​​Хаясибара К.С., Лайонс М.Р., Бодуэн Р.Е., Коулман Б.Е., Лаптевич М.В., Санникандро А.Е., Роудс М.Д., Готтимуккала Р.К., Янг С., Бафна В., Башир А., Макбрайд А., Алкан С., Кидд Дж.М., Эйхлер Э.Э., Риз М.Г., Де Ла Вега Ф.М., Бланшар А.П. Геном Рез. 2009 сентября; 19 (9): 1527-41. Epub 2009, 22 июня.
  3. ^ Патент: Реагенты, методы и библиотеки для секвенирования на основе бисера
  4. ^ Статья: Карта расположения нуклеосом высокого разрешения у C. elegans выявляет отсутствие универсального...
  5. ^ Статья: Транскриптомное профилирование стволовых клеток с помощью масштабного секвенирования мРНК
  6. ^ Быстрое мутационное профилирование всего генома с использованием технологий секвенирования следующего поколения, Genome Research, 2008 18:1638-1642
  7. ^ Четверин, НАР, 1993, Том 21, № 10 2349-2353
  8. ^ MATTHEW E. HUDSON (2008) Прорывы в секвенировании для геномной экологии и эволюционной биологии. Ресурсы молекулярной экологии 8 (1), 3–17
  9. ^ Патент США Уайтли номер 4,883,750
  10. ^ Macevicz патент США номер 5,750,341
  11. ^ Преобразование отдельных молекул ДНК во флуоресцентные магнитные частицы для обнаружения и подсчета генетических вариаций, PNAS 22 июля 2004 г., том 100, № 15, стр. 8817-8822
  12. ^ Прикладные Биосистемы
  13. ^ Техническое резюме: SOLiD от ABI (Seq. by Oligo Ligation/Detection) - SEQanswers
  14. ^ [1] Пример преобразования цветового пространства в FastQ
  15. ^ Смит и др., Genome Research 2008 18:1638-1642