Секвенирование ДНК с помощью наношариков — это высокопроизводительная технология секвенирования, которая используется для определения всей геномной последовательности организма. Метод использует репликацию по принципу катящегося кольца для амплификации небольших фрагментов геномной ДНК в наношарики ДНК . Флуоресцентные нуклеотиды связываются с комплементарными нуклеотидами и затем полимеризуются в якорные последовательности, связанные с известными последовательностями на шаблоне ДНК. Порядок оснований определяется с помощью флуоресценции связанных нуклеотидов [2] Этот метод секвенирования ДНК позволяет секвенировать большое количество наношариков ДНК за один запуск при более низких затратах на реагенты по сравнению с другими платформами секвенирования следующего поколения . [3] Однако ограничением этого метода является то, что он генерирует только короткие последовательности ДНК, что создает проблемы для сопоставления его прочтений с эталонным геномом . [2] После покупки Complete Genomics Пекинский институт геномики (BGI) усовершенствовал секвенирование ДНК с помощью наношариков для секвенирования образцов нуклеотидов на своей собственной платформе. [4] [5]
Секвенирование ДНК наношариков включает в себя выделение ДНК , которая должна быть секвенирована, ее разрезание на небольшие фрагменты из 100–350 пар оснований (п.н.), лигирование последовательностей адаптеров к фрагментам и кольцевание фрагментов. Круговые фрагменты копируются путем репликации по принципу катящегося кольца, что приводит к образованию множества одноцепочечных копий каждого фрагмента. Копии ДНК объединяются в длинную цепь и уплотняются в ДНК наношарики. Затем наношарики адсорбируются на проточной ячейке секвенирования. Цвет флуоресценции в каждой исследуемой позиции регистрируется с помощью камеры высокого разрешения. Биоинформатика используется для анализа данных флуоресценции и определения основания, а также для картирования или количественной оценки 50-, 100- или 150-концевых считываний с одного или двух концов. [6] [2]
Клетки лизируются , и ДНК извлекается из клеточного лизата . Высокомолекулярная ДНК, часто длиной в несколько мегапар оснований, фрагментируется физическими или ферментативными методами для разрыва двойных цепей ДНК в случайных интервалах. Биоинформатическое картирование прочтений секвенирования наиболее эффективно, когда образец ДНК содержит узкий диапазон длин. [7] Для секвенирования малых РНК выбор идеальной длины фрагментов для секвенирования выполняется с помощью гель-электрофореза ; [8] для секвенирования более крупных фрагментов фрагменты ДНК разделяются с помощью отбора размера на основе бусинок. [9]
Последовательности адаптерной ДНК должны быть присоединены к неизвестному фрагменту ДНК так, чтобы сегменты ДНК с известными последовательностями фланкировали неизвестную ДНК. В первом раунде лигирования адаптера правый (Ad153_right) и левый (Ad153_left) адаптеры присоединяются к правому и левому флангам фрагментированной ДНК, и ДНК амплифицируется с помощью ПЦР . Затем олигонуклеотид-шплинт гибридизуется с концами фрагментов, которые лигируются для формирования круга. Добавляется экзонуклеаза для удаления всех оставшихся линейных одноцепочечных и двухцепочечных продуктов ДНК. Результатом является завершенный кольцевой шаблон ДНК. [2]
После создания одноцепочечной кольцевой ДНК-матрицы, содержащей образец ДНК, лигированный с двумя уникальными последовательностями адаптеров, полная последовательность амплифицируется в длинную цепочку ДНК. Это достигается путем репликации по принципу катящегося кольца с помощью ДНК-полимеразы Phi 29 , которая связывает и реплицирует матрицу ДНК. Вновь синтезированная цепочка высвобождается из кольцевой матрицы, в результате чего получается длинная одноцепочечная ДНК, включающая несколько копий кольцевой матрицы от головы к хвосту. [10] Полученная наночастица самоорганизуется в плотный клубок ДНК размером приблизительно 300 нанометров (нм) в поперечнике. Наношарики остаются отделенными друг от друга, поскольку они отрицательно заряжены и естественным образом отталкиваются друг от друга, уменьшая любое спутывание между различными длинами одноцепочечной ДНК. [2]
Для получения последовательности ДНК наношарики ДНК прикрепляются к ячейке потока с шаблонным массивом. Ячейка потока представляет собой кремниевую пластину, покрытую диоксидом кремния , титаном , гексаметилдисилазаном (HMDS) и фоторезистивным материалом. Наношарики ДНК добавляются в ячейку потока и селективно связываются с положительно заряженным аминосиланом в высокоупорядоченном шаблоне, что позволяет секвенировать очень высокую плотность наношариков ДНК. [2] [11]
После каждого шага включения нуклеотида ДНК проточная ячейка визуализируется для определения того, какое нуклеотидное основание связано с ДНК-наношариком. Флуорофор возбуждается лазером , который возбуждает определенные длины волн света. Излучение флуоресценции от каждого ДНК-наношарика фиксируется на ПЗС-камере высокого разрешения . Затем изображение обрабатывается для удаления фонового шума и оценки интенсивности каждой точки. Цвет каждого ДНК-наношарика соответствует основанию в заданной позиции, а компьютер записывает информацию о положении основания. [2]
Данные, полученные из ДНК-наношариков, форматируются как стандартные файлы FASTQ с непрерывными основаниями (без пробелов). Эти файлы могут использоваться в любом конвейере анализа данных, настроенном на чтение файлов FASTQ с одним или двумя концами.
Например:
Прочитайте 1, из 100bp парного конца прогона из [12]
@CL100011513L1C001R013_126365/1 CTAGGCAACTATAGGTCTCAGTTAAGTCAAATAAAATTCACATCAAATTTTTACTCCCACCATCCCAACACTTTCCTGCCTGGCATATGCCGTGTCTGCC + FFFFFFFFFFFGFGFFFFFF;FFFFFFFGFGFGFFFFFF;FFFFGFGFFFEFFFFFEDGFDFF@FCFGFGCFFFFFEFFEGDFDFFFFFGDAFFEFGFF
Соответствующее чтение 2:
@CL100011513L1C001R013_126365/2 TGTCTACCATATTCTACATTCCACACTCGGTGAGGGAAGGTAGGCACATAAAGCAATGGCAGTACGGTGTAATACATGCTAATGTAGAGTAAGCACTCAG + 3E9E<ADEBB:D>E?FD<<@EFE>>ECEF5CE:B6E:CEE?6B>B+@??31/FD:0?@:E9<3FE2/A:/8>9CB&=E<7: --+>;29:7+/5D9)?5F/:
Для популярных элайнеров вполне достаточно параметров по умолчанию.
В файле FASTQ, созданном секвенаторами BGI/MGI с использованием ДНК-наношариков на структурированной ячейке потока, имена прочтений выглядят следующим образом:
BGISEQ-500:CL100025298L1C002R050_244547
MGISEQ-2000:V100006430L1C001R018613883
Имена считываний могут быть проанализированы для извлечения трех переменных, описывающих физическое местоположение считывания в шаблонном массиве: (1) плитка/регион, (2) координата x и (3) координата y. Обратите внимание, что из-за порядка этих переменных эти имена считываний не могут быть изначально проанализированы Picard MarkDuplicates для идентификации оптических дубликатов. Однако, поскольку на этой платформе их нет, это не представляет проблемы для анализа данных на основе Picard.
Поскольку наношарики ДНК остаются ограниченными своими точками на шаблонном массиве, нет оптических дубликатов, с которыми нужно бороться во время биоинформатического анализа прочтений секвенирования. Предлагается запускать Picard MarkDuplicates следующим образом:
java -jar picard.jar MarkDuplicates I=input.bam O=marked_duplicates.bam M=marked_dup_metrics.txt READ_NAME_REGEX=null
Тест с переформатированными именами прочтений, удобными для Пикара, демонстрирует отсутствие этого класса дублирующихся прочтений:
Единичное считывание, отмеченное как оптический дубликат, несомненно, является артефактом. В любом случае, влияние на предполагаемый размер библиотеки незначительно.
Технология секвенирования ДНК-наношариков имеет некоторые преимущества по сравнению с другими платформами секвенирования. Одним из преимуществ является устранение оптических дубликатов. ДНК-наношарики остаются на месте в шаблонном массиве и не мешают соседним наношарикам.
Еще одним преимуществом секвенирования ДНК с помощью наношариков является использование высокоточной ДНК-полимеразы Phi 29 [10] для обеспечения точной амплификации кольцевого шаблона, несколько сотен копий кольцевого шаблона, уплотненных в небольшую область, что приводит к интенсивному сигналу, а присоединение флуорофора к зонду на большом расстоянии от точки лигирования приводит к улучшению лигирования. [2]
Основным недостатком секвенирования ДНК с помощью наношариков является короткая длина прочтения последовательностей ДНК, полученных с помощью этого метода. [2] Короткие прочтения, особенно для ДНК с высоким содержанием повторов ДНК , могут сопоставляться с двумя или более областями референтного генома. Вторым недостатком этого метода является необходимость использования нескольких раундов ПЦР. Это может привести к смещению ПЦР и, возможно, усилить загрязняющие вещества на этапе построения шаблона. [2] Однако эти недостатки являются общими для всех платформ секвенирования с коротким прочтением и не являются специфическими для ДНК с помощью наношариков.
Секвенирование ДНК с помощью наношариков использовалось в недавних исследованиях. Ли и др. использовали эту технологию для поиска мутаций, которые присутствовали в раке легких, и сравнили их с нормальной тканью легких. [13] Им удалось идентифицировать более 50 000 вариантов отдельных нуклеотидов . Роуч и др. использовали секвенирование ДНК с помощью наношариков для секвенирования геномов семьи из четырех родственников и смогли идентифицировать SNP, которые могут быть ответственны за менделевское расстройство , [14] и смогли оценить скорость мутаций между поколениями. [14] Институт системной биологии использовал эту технологию для секвенирования 615 полных образцов человеческого генома в рамках исследования, изучающего нейродегенеративные заболевания, а Национальный институт рака использует секвенирование ДНК с помощью наношариков для секвенирования 50 опухолей и сопоставления нормальных тканей от детских раковых заболеваний . [ требуется ссылка ]
Массово-параллельные платформы секвенирования следующего поколения, такие как ДНК-наношарики, могут способствовать диагностике и лечению многих генетических заболеваний. Стоимость секвенирования всего человеческого генома снизилась с примерно одного миллиона долларов в 2008 году до 4400 долларов в 2010 году с технологией ДНК-наношариков. [15] Секвенирование всего генома пациентов с наследственными заболеваниями или раком , мутации, связанные с этими заболеваниями, были идентифицированы, открывая стратегии, такие как целевая терапия для людей из группы риска и для генетического консультирования . [15] Поскольку цена секвенирования всего человеческого генома приближается к отметке в 1000 долларов , геномное секвенирование каждого человека может стать осуществимым как часть обычной профилактической медицины . [15]