2 Base Encoding , также называемое SOLiD ( секвенирование путем лигирования и обнаружения олигонуклеотидов ), является технологией секвенирования следующего поколения, разработанной Applied Biosystems и доступной для коммерческого использования с 2008 года. Эти технологии генерируют сотни тысяч небольших прочтений последовательностей за один раз. Известные примеры таких методов секвенирования ДНК включают пиросеквенирование 454 (представлено в 2005 году), систему Solexa (представлено в 2006 году) и систему SOLiD (представлено в 2007 году). Эти методы снизили стоимость с 0,01 долл. США за основание в 2004 году до почти 0,0001 долл. США за основание в 2006 году и увеличили производительность секвенирования с 1 000 000 оснований/машину/день в 2004 году до более чем 100 000 000 оснований/машину/день в 2006 году.
2-основное кодирование основано на лигатурном секвенировании, а не на секвенировании путем синтеза. [1] Однако вместо использования флуоресцентно меченых 9-мерных зондов, которые различают только 6 оснований, 2-основное кодирование использует преимущества флуоресцентно меченых 8-мерных зондов, которые различают два 3 самых главных основания, но могут циклироваться подобно методу Мацевица, таким образом, можно получить более 6 пар оснований (опубликовано 25-50 пар оснований, [2] 50 пар оснований в NCBI в феврале 2008 г.). 2-основное кодирование позволяет дважды считывать каждое основание, не выполняя двойную работу. [3] [4] [5] [6]
Общие этапы, общие для многих из этих методов секвенирования следующего поколения, включают:
В 1988 году Уайтли и др. продемонстрировали использование лигирования флуоресцентно меченых олигонуклеотидов для обнаружения вариантов ДНК. [9] В 1995 году Мацевич [10] продемонстрировал повторное лигирование олигонуклеотидов для обнаружения смежных вариантов ДНК. В 2003 году Дрессман и др. [11] продемонстрировали использование эмульсионной ПЦР для получения миллионов клонально амплифицированных гранул, на которых можно было проводить эти повторные анализы лигирования. В 2005 году Шендуре и др. провели процедуру секвенирования, которая объединила методы Уайтли и Дрессмана, выполняя лигирование флуоресцентно меченых «вырожденных 8 оснований» 9-мерных зондов, которые различали другое основание в соответствии с меткой зонда и невырожденное основание. Этот процесс был повторен (без регенерации удлиняемого конца, как у Мацевица) с использованием идентичных праймеров, но с зондами с метками, которые идентифицировали различные невырожденные основания для секвенирования прочтений 6 п.н. в направлении 5->3 и прочтений 7 п.н. в направлении 3->5.
Система секвенирования SOLiD использует зонды с двухосновным кодированием.
Основная химия суммируется в следующих этапах: [12]
- Шаг 1, Подготовка библиотеки: Этот шаг начинается с разрезания геномной ДНК на небольшие фрагменты. Затем добавляются два разных адаптера (например, A1 и A2). Полученная библиотека содержит фрагменты ДНК-шаблона, которые помечены одним адаптером на каждом конце (A1-шаблон-A2).
- Шаг 2. Эмульсионная ПЦР: на этом шаге реакция ПЦР эмульсии (капли воды, взвешенные в масле) выполняется с использованием фрагментов ДНК из библиотеки, двух праймеров (P1 и P2), которые дополняют ранее использованные адаптеры (P1 с A1 и P2 с A2), других компонентов реакции ПЦР и 1-мкм гранул, соединенных с одним из праймеров (например, P1), для разбавления библиотеки ДНК с целью максимального увеличения количества капель, содержащих один фрагмент ДНК и одну гранулу, в одной капле эмульсии.
В каждой капле ДНК-матрица отжигается с P1-связанной бусиной со стороны A1. Затем ДНК-полимераза расширяется от P1, чтобы создать комплементарную последовательность, что в конечном итоге приводит к бусине, обогащенной продуктами ПЦР из одной матрицы. После реакции ПЦР матрицы денатурируются и отделяются от бусин. Дрессман и др. впервые описали эту технику в 2003 году.
- Шаг 3, Обогащение бусин: На практике только 30% бусин имеют целевую ДНК. Чтобы увеличить количество бусин, имеющих целевую ДНК, в раствор добавляют большие полистирольные бусины, покрытые A2. Таким образом, любая бусина, содержащая удлиненные продукты, свяжет полистирольную бусинку через ее конец P2. Полученный комплекс будет отделен от нецелевых бусин и расплавлен для диссоциации целевых бусин из полистирола. Этот шаг может увеличить пропускную способность этой системы с 30% до обогащения до 80% после обогащения.
После обогащения 3'-конец продуктов (конец P2) будет модифицирован, что сделает их способными к ковалентному связыванию на следующем этапе. Таким образом, продукты этого этапа представляют собой ДНК-связанные бусины с 3'-модификацией каждой цепи ДНК.
- Шаг 4, осаждение бусин: На этом этапе продукты последнего шага осаждаются на предметном стекле. Бусины прикрепляются к стеклянной поверхности случайным образом через ковалентные связи 3'-модифицированных бусин и стекла.
- Шаг 5, Реакция секвенирования: Как упоминалось ранее, в отличие от других методов следующего поколения, которые выполняют секвенирование через синтез, 2-основное кодирование основано на секвенировании путем лигирования. Лигирование выполняется с использованием специфических 8-мерных зондов:
Эти зонды имеют длину восемь оснований со свободной гидроксильной группой на 3'-конце, флуоресцентным красителем на 5'-конце и сайтом расщепления между пятым и шестым нуклеотидом. Первые два основания (начиная с 3'-конца) комплементарны секвенируемым нуклеотидам. Основания с 3 по 5 являются вырожденными и способны образовывать пары с любыми нуклеотидами в последовательности шаблона. Основания 6-8 также являются вырожденными, но отщепляются вместе с флуоресцентным красителем по мере продолжения реакции. Расщепление флуоресцентного красителя и оснований 6-8 оставляет свободную 5'-фосфатную группу, готовую для дальнейшего лигирования. Таким образом, позиции n+1 и n+2 правильно спарены, за которыми следуют n+6 и n+7, которые правильно спарены, и т. д. Состав оснований n+3, n+4 и n+5 остается неопределенным до дальнейших раундов реакции секвенирования.
Этап секвенирования в основном состоит из пяти раундов, и каждый раунд состоит из примерно 5-7 циклов (рисунок 2). Каждый раунд начинается с добавления универсального праймера, комплементарного P1. Этот праймер имеет, например, n нуклеотидов, и его 5'-конец точно совпадает с 3'-концом P1. В каждом цикле 8-мерные зонды добавляются и лигируются в соответствии с их первым и вторым основаниями. Затем оставшиеся несвязанные зонды вымываются, измеряется флуоресцентный сигнал от связанного зонда, и связанный зонд расщепляется между его пятым и шестым нуклеотидом. Наконец, праймер и зонды все сбрасываются для следующего раунда.
В следующем раунде новый универсальный праймер отжигает позицию n-1 (его 5'-конец совпадает с основанием точно перед 3'-концом P1) и последующие циклы повторяются аналогично первому раунду. Оставшиеся три раунда будут выполнены с новыми универсальными праймерами, отжигающими позиции n-2, n-3 и n-4 относительно 3'-конца P1.
Полная реакция из пяти раундов позволяет секвенировать около 25 пар оснований шаблона из P1.
- Шаг 6, Декодирование данных: Для декодирования данных, которые представлены в виде цветов, мы должны сначала знать два важных фактора. Во-первых, мы должны знать, что каждый цвет указывает на два основания. Во-вторых, нам нужно знать одно из оснований в последовательности: это основание включено в последовательность в последнем (пятом) раунде шага 5. Это известное основание является последним нуклеотидом 3'-конца известного P1. Следовательно, поскольку каждый цвет представляет два нуклеотида, в которых второе основание каждой динуклеотидной единицы составляет первое основание следующего динуклеотида, знание только одного основания в последовательности приведет нас к интерпретации всей последовательности (рисунок 2). [13]
На практике прямой перевод цветовых считываний в базовые считывания не рекомендуется, так как в момент, когда вы сталкиваетесь с ошибкой в цветовых вызовах, это приведет к сдвигу кадров базовых вызовов. Чтобы наилучшим образом использовать свойства «коррекции ошибок» двухбазового кодирования, лучше всего преобразовать вашу базовую последовательность ссылок в цветовое пространство. Существует одно однозначное преобразование базовой последовательности ссылок в цветовое пространство, и хотя обратное также верно, преобразование может быть крайне неточным, если есть какие-либо ошибки секвенирования. [14]
Сопоставление цветовых считываний с эталоном цветового пространства может правильно использовать правила кодирования двух баз, где только смежные цветовые различия могут представлять истинный базовый полиморфизм. Прямое декодирование или перевод цветовых считываний в базы не может сделать это эффективно без других знаний.
Точнее, этот метод не является инструментом исправления ошибок, а инструментом преобразования ошибок. Цветовое пространство преобразует ваш наиболее распространенный режим ошибок (единичные ошибки измерения) в частоту, отличную от вашей наиболее распространенной формы вариации ДНК (SNP или изменения одного основания). Эти изменения одного основания влияют на смежные цвета в цветовом пространстве. Существуют логические правила, которые помогают исправлять смежные ошибки в «допустимые» и «недопустимые» смежные ошибки.
Вероятность получения двух смежных ошибок в 50-пн прочтении можно оценить. Существует 49 способов внесения смежных изменений в 50-буквенную строку (50-пн прочтение). Существует 1225 способов внесения несмежных изменений в 50-буквенную строку (50 выбирают 2). Упрощенно, если предположить, что ошибки полностью случайны (они обычно более часто встречаются в конце прочтений), то только 49 из 1225 ошибок будут кандидатами на SNP. Кроме того, только треть смежных ошибок могут быть действительными ошибками в соответствии с известной маркировкой зондов, таким образом, предоставляя только 16 из 1225 ошибок, которые могут быть кандидатами на SNP. Это особенно полезно для обнаружения SNP с низким покрытием, поскольку это снижает ложные срабатывания при низком покрытии, Смит и др. [15]
Каждое основание в этом методе секвенирования считывается дважды. Это изменяет цвет двух соседних вызовов цветового пространства, поэтому для того, чтобы неправильно назвать SNP, два соседних цвета должны быть неправильно названы. Из-за этого скорость неправильного вызова SNP составляет порядка e^2, где e — скорость ошибки устройства.
При вызове основания одиночные цветовые ошибки вызывают ошибки в оставшейся части чтения. При вызове SNP это можно исправить, что приводит к более низкому уровню ошибок вызова SNP. Однако для упрощенной сборки de novo у вас остается уровень ошибок необработанного устройства, который будет значительно выше, чем 0,06%, сообщенные для вызова SNP. Качественная фильтрация считываний может обеспечить более высокую точность необработанных считываний, которые при выравнивании для формирования цветовых контигов могут предоставить референтные последовательности, где 2-основное кодирование может быть лучше использовано. Гибридные сборки с другими технологиями также могут лучше использовать 2-основное кодирование.