Секвенирование ДНК-наношариков

Секвенирование ДНК с помощью наношариков — это высокопроизводительная технология секвенирования, которая используется для определения всей геномной последовательности организма. Метод использует репликацию по принципу катящегося кольца для амплификации небольших фрагментов геномной ДНК в наношарики ДНК . Флуоресцентные нуклеотиды связываются с комплементарными нуклеотидами и затем полимеризуются в якорные последовательности, связанные с известными последовательностями на шаблоне ДНК. Порядок оснований определяется с помощью флуоресценции связанных нуклеотидов ^[2] Этот метод секвенирования ДНК позволяет секвенировать большое количество наношариков ДНК за один запуск при более низких затратах на реагенты по сравнению с другими платформами секвенирования следующего поколения . ^[3] Однако ограничением этого метода является то, что он генерирует только короткие последовательности ДНК, что создает проблемы для сопоставления его прочтений с эталонным геномом . ^[2] После покупки Complete Genomics Пекинский институт геномики (BGI) усовершенствовал секвенирование ДНК с помощью наношариков для секвенирования образцов нуклеотидов на своей собственной платформе. ^[4]^[5]

Процедура

Секвенирование ДНК наношариков включает в себя выделение ДНК , которая должна быть секвенирована, ее разрезание на небольшие фрагменты из 100–350 пар оснований (п.н.), лигирование последовательностей адаптеров к фрагментам и кольцевание фрагментов. Круговые фрагменты копируются путем репликации по принципу катящегося кольца, что приводит к образованию множества одноцепочечных копий каждого фрагмента. Копии ДНК объединяются в длинную цепь и уплотняются в ДНК наношарики. Затем наношарики адсорбируются на проточной ячейке секвенирования. Цвет флуоресценции в каждой исследуемой позиции регистрируется с помощью камеры высокого разрешения. Биоинформатика используется для анализа данных флуоресценции и определения основания, а также для картирования или количественной оценки 50-, 100- или 150-концевых считываний с одного или двух концов. ^[6]^[2]

Изоляция ДНК, фрагментация и определение размера

Клетки лизируются , и ДНК извлекается из клеточного лизата . Высокомолекулярная ДНК, часто длиной в несколько мегапар оснований, фрагментируется физическими или ферментативными методами для разрыва двойных цепей ДНК в случайных интервалах. Биоинформатическое картирование прочтений секвенирования наиболее эффективно, когда образец ДНК содержит узкий диапазон длин. ^[7] Для секвенирования малых РНК выбор идеальной длины фрагментов для секвенирования выполняется с помощью гель-электрофореза ; ^[8] для секвенирования более крупных фрагментов фрагменты ДНК разделяются с помощью отбора размера на основе бусинок. ^[9]

Присоединение последовательностей адаптеров

Последовательности адаптерной ДНК должны быть присоединены к неизвестному фрагменту ДНК так, чтобы сегменты ДНК с известными последовательностями фланкировали неизвестную ДНК. В первом раунде лигирования адаптера правый (Ad153_right) и левый (Ad153_left) адаптеры присоединяются к правому и левому флангам фрагментированной ДНК, и ДНК амплифицируется с помощью ПЦР . Затем олигонуклеотид-шплинт гибридизуется с концами фрагментов, которые лигируются для формирования круга. Добавляется экзонуклеаза для удаления всех оставшихся линейных одноцепочечных и двухцепочечных продуктов ДНК. Результатом является завершенный кольцевой шаблон ДНК. ^[2]

Репликация по принципу катящегося круга

После создания одноцепочечной кольцевой ДНК-матрицы, содержащей образец ДНК, лигированный с двумя уникальными последовательностями адаптеров, полная последовательность амплифицируется в длинную цепочку ДНК. Это достигается путем репликации по принципу катящегося кольца с помощью ДНК-полимеразы Phi 29 , которая связывает и реплицирует матрицу ДНК. Вновь синтезированная цепочка высвобождается из кольцевой матрицы, в результате чего получается длинная одноцепочечная ДНК, включающая несколько копий кольцевой матрицы от головы к хвосту. ^[10] Полученная наночастица самоорганизуется в плотный клубок ДНК размером приблизительно 300 нанометров (нм) в поперечнике. Наношарики остаются отделенными друг от друга, поскольку они отрицательно заряжены и естественным образом отталкиваются друг от друга, уменьшая любое спутывание между различными длинами одноцепочечной ДНК. ^[2]

Создание наношариков ДНК и адсорбция их в структурированной ячейке потока

ДНК-наношарики с узорчатым массивом

Для получения последовательности ДНК наношарики ДНК прикрепляются к ячейке потока с шаблонным массивом. Ячейка потока представляет собой кремниевую пластину, покрытую диоксидом кремния , титаном , гексаметилдисилазаном (HMDS) и фоторезистивным материалом. Наношарики ДНК добавляются в ячейку потока и селективно связываются с положительно заряженным аминосиланом в высокоупорядоченном шаблоне, что позволяет секвенировать очень высокую плотность наношариков ДНК. ^[2]^[11]

Визуализация

После каждого шага включения нуклеотида ДНК проточная ячейка визуализируется для определения того, какое нуклеотидное основание связано с ДНК-наношариком. Флуорофор возбуждается лазером , который возбуждает определенные длины волн света. Излучение флуоресценции от каждого ДНК-наношарика фиксируется на ПЗС-камере высокого разрешения . Затем изображение обрабатывается для удаления фонового шума и оценки интенсивности каждой точки. Цвет каждого ДНК-наношарика соответствует основанию в заданной позиции, а компьютер записывает информацию о положении основания. ^[2]

Формат данных секвенирования

Данные, полученные из ДНК-наношариков, форматируются как стандартные файлы FASTQ с непрерывными основаниями (без пробелов). Эти файлы могут использоваться в любом конвейере анализа данных, настроенном на чтение файлов FASTQ с одним или двумя концами.

Например:

Прочитайте 1, из 100bp парного конца прогона из ^[12]

@CL100011513L1C001R013_126365/1 CTAGGCAACTATAGGTCTCAGTTAAGTCAAATAAAATTCACATCAAATTTTTACTCCCACCATCCCAACACTTTCCTGCCTGGCATATGCCGTGTCTGCC + FFFFFFFFFFFGFGFFFFFF;FFFFFFFGFGFGFFFFFF;FFFFGFGFFFEFFFFFEDGFDFF@FCFGFGCFFFFFEFFEGDFDFFFFFGDAFFEFGFF

Соответствующее чтение 2:

@CL100011513L1C001R013_126365/2 TGTCTACCATATTCTACATTCCACACTCGGTGAGGGAAGGTAGGCACATAAAGCAATGGCAGTACGGTGTAATACATGCTAATGTAGAGTAAGCACTCAG + 3E9E<ADEBB:D>E?FD<<@EFE>>ECEF5CE:B6E:CEE?6B>B+@??31/FD:0?@:E9<3FE2/A:/8>9CB&=E<7: --+>;29:7+/5D9)?5F/:

Советы по информатике

Выравнивание референсного генома

Для популярных элайнеров вполне достаточно параметров по умолчанию.

Прочитать имена

В файле FASTQ, созданном секвенаторами BGI/MGI с использованием ДНК-наношариков на структурированной ячейке потока, имена прочтений выглядят следующим образом:

Анатомия секвенатора BGI, имя чтения

Анатомия секвенсора MGI, имя чтения

BGISEQ-500:CL100025298L1C002R050_244547

MGISEQ-2000:V100006430L1C001R018613883

Имена считываний могут быть проанализированы для извлечения трех переменных, описывающих физическое местоположение считывания в шаблонном массиве: (1) плитка/регион, (2) координата x и (3) координата y. Обратите внимание, что из-за порядка этих переменных эти имена считываний не могут быть изначально проанализированы Picard MarkDuplicates для идентификации оптических дубликатов. Однако, поскольку на этой платформе их нет, это не представляет проблемы для анализа данных на основе Picard.

Дубликаты

Поскольку наношарики ДНК остаются ограниченными своими точками на шаблонном массиве, нет оптических дубликатов, с которыми нужно бороться во время биоинформатического анализа прочтений секвенирования. Предлагается запускать Picard MarkDuplicates следующим образом:

java -jar picard.jar MarkDuplicates I=input.bam O=marked_duplicates.bam M=marked_dup_metrics.txt READ_NAME_REGEX=null

Тест с переформатированными именами прочтений, удобными для Пикара, демонстрирует отсутствие этого класса дублирующихся прочтений:

Единичное считывание, отмеченное как оптический дубликат, несомненно, является артефактом. В любом случае, влияние на предполагаемый размер библиотеки незначительно.

Преимущества

Технология секвенирования ДНК-наношариков имеет некоторые преимущества по сравнению с другими платформами секвенирования. Одним из преимуществ является устранение оптических дубликатов. ДНК-наношарики остаются на месте в шаблонном массиве и не мешают соседним наношарикам.

Еще одним преимуществом секвенирования ДНК с помощью наношариков является использование высокоточной ДНК-полимеразы Phi 29 ^[10] для обеспечения точной амплификации кольцевого шаблона, несколько сотен копий кольцевого шаблона, уплотненных в небольшую область, что приводит к интенсивному сигналу, а присоединение флуорофора к зонду на большом расстоянии от точки лигирования приводит к улучшению лигирования. ^[2]

Недостатки

Основным недостатком секвенирования ДНК с помощью наношариков является короткая длина прочтения последовательностей ДНК, полученных с помощью этого метода. ^[2] Короткие прочтения, особенно для ДНК с высоким содержанием повторов ДНК , могут сопоставляться с двумя или более областями референтного генома. Вторым недостатком этого метода является необходимость использования нескольких раундов ПЦР. Это может привести к смещению ПЦР и, возможно, усилить загрязняющие вещества на этапе построения шаблона. ^[2] Однако эти недостатки являются общими для всех платформ секвенирования с коротким прочтением и не являются специфическими для ДНК с помощью наношариков.

Приложения

Секвенирование ДНК с помощью наношариков использовалось в недавних исследованиях. Ли и др. использовали эту технологию для поиска мутаций, которые присутствовали в раке легких, и сравнили их с нормальной тканью легких. ^[13] Им удалось идентифицировать более 50 000 вариантов отдельных нуклеотидов . Роуч и др. использовали секвенирование ДНК с помощью наношариков для секвенирования геномов семьи из четырех родственников и смогли идентифицировать SNP, которые могут быть ответственны за менделевское расстройство , ^[14] и смогли оценить скорость мутаций между поколениями. ^[14] Институт системной биологии использовал эту технологию для секвенирования 615 полных образцов человеческого генома в рамках исследования, изучающего нейродегенеративные заболевания, а Национальный институт рака использует секвенирование ДНК с помощью наношариков для секвенирования 50 опухолей и сопоставления нормальных тканей от детских раковых заболеваний . ^{[ требуется ссылка ]}

Значение

Массово-параллельные платформы секвенирования следующего поколения, такие как ДНК-наношарики, могут способствовать диагностике и лечению многих генетических заболеваний. Стоимость секвенирования всего человеческого генома снизилась с примерно одного миллиона долларов в 2008 году до 4400 долларов в 2010 году с технологией ДНК-наношариков. ^[15] Секвенирование всего генома пациентов с наследственными заболеваниями или раком , мутации, связанные с этими заболеваниями, были идентифицированы, открывая стратегии, такие как целевая терапия для людей из группы риска и для генетического консультирования . ^[15] Поскольку цена секвенирования всего человеческого генома приближается к отметке в 1000 долларов , геномное секвенирование каждого человека может стать осуществимым как часть обычной профилактической медицины . ^[15]

Ссылки

^ Хуан, Цзе; Лян, Синьмин; Сюань, Юанькай; Гэн, Чунь Юй; Ли, Юйсян; Лу, Хаоронг; Цюй, Шуфан; Мэй, Сянлинь; Чен, Хунбо; Ю, Тинг; Сан, Нэн; Рао, Цзюньхуа; Ван, Цзяхао; Чжан, Вэньвэй; Чен, Ин; Ляо, Ша; Цзян, Хуэй; Лю, Синь; Ян, Чжаопэн; Му, Фэн; Гао, Шансянь (2017). «Эталонный набор данных генома человека секвенатора BGISEQ-500». ГигаСайенс . 6 (5): 1–9. doi : 10.1093/gigascience/gix024. ISSN 2047-217X. ПМК 5467036 . PMID 28379488.
^ abcdefghij Drmanac, R.; Sparks, AB; Callow, MJ; Halpern, AL; Burns, NL; Kermani, BG; Carnevali, P.; Nazarenko, I.; et al. (2009). "Секвенирование генома человека с использованием несвязанных базовых считываний на самоорганизующихся ДНК-наномассивах". Science . 327 (5961): 78–81. Bibcode :2010Sci...327...78D. doi : 10.1126/science.1181498 . PMID 19892942. S2CID 17309571.
^ Porreca, Gregory J (2010). «Секвенирование генома на наношарах». Nature Biotechnology . 28 (1): 43–4. doi :10.1038/nbt0110-43. PMID 20062041. S2CID 54557996.
^ «BGI-Shenzhen завершает приобретение Complete Genomics» (пресс-релиз). PR Newswire.
^ "Обзор технологии секвенирования всего генома Revolocity™" (PDF) . Complete Genomics . Получено 18 ноября 2017 г. .
^ Хуан, Дж. (2017). «Справочный набор данных человеческого генома секвенатора BGISEQ-500». GigaScience . 6 (5): 1–9. doi :10.1093/gigascience/gix024. PMC 5467036 . PMID 28379488.
^ Fullwood, MJ; Wei, C.-L.; Liu, ET; Ruan, Y. (2009). «Секвенирование ДНК следующего поколения парных концевых меток (PET) для анализа транскриптома и генома». Genome Research . 19 (4): 521–32. doi :10.1101/gr.074906.107. PMC 3807531. PMID 19339662 .
^ Fehlmann, T. (2016). "cPAS- based секвенирование на BGISEQ-500 для исследования малых некодирующих РНК". Clin Epigenetics . 8 : 123. doi : 10.1186/s13148-016-0287-1 . PMC 5117531. PMID 27895807.
^ Muller, W. (1982). «Фракционирование фрагментов ДНК размером от 20 до 30000 пар оснований методом жидкостно-жидкостной хроматографии». Eur J Biochem . 128 (1): 231–238. doi : 10.1111/j.1432-1033.1982.tb06956.x . PMID 7173204.
^ ab Бланко, Луис; Бернад, Антонио; Лазаро, Хосе М.; Мартин, Джил; Гармендиа, Кристина; Маргарита, М; Салас (1989). «Высокоэффективный синтез ДНК с помощью ДНК-полимеразы фага phi 29. Симметричный режим репликации ДНК». Журнал биологической химии . 264 (15): 8935–40. doi : 10.1016/S0021-9258(18)81883-X . PMID 2498321.
^ Криси, Л.; Ли, ГУ; О'Ферралл, CE (1996). «Ковалентное присоединение синтетической ДНК к самоорганизующимся монослойным пленкам». Nucleic Acids Research . 24 (15): 3031–9. doi :10.1093/nar/24.15.3031. PMC 146042. PMID 8760890 .
^ "Обновленный референсный набор данных генома человека секвенатора BGISEQ-500". GigaDB . Получено 22 марта 2017 г.
^ Ли, Уильям; Цзян, Чжаоши; Лю, Цзиньфэн; Хаверти, Питер М.; Гуань, Инхуэй; Стинсон, Джереми; Юэ, Пэн; Чжан, Янь; и др. (2010). «Спектр мутаций, выявленный парными геномными последовательностями у пациента с раком легких». Nature . 465 (7297): 473–7. Bibcode :2010Natur.465..473L. doi :10.1038/nature09004. PMID 20505728. S2CID 4354035.
^ ab Roach, JC; Glusman, G.; Smit, AFA; Huff, CD; Hubley, R.; Shannon, PT; Rowen, L.; Pant, KP; et al. (2010). «Анализ генетической наследственности в семейном квартете с помощью секвенирования всего генома». Science . 328 (5978): 636–9. Bibcode :2010Sci...328..636R. doi :10.1126/science.1186802. PMC 3037280 . PMID 20220176.
^ abc Speicher, Michael R; Geigl, Jochen B; Tomlinson, Ian P (2010). «Влияние исследований ассоциаций по всему геному, генетического тестирования напрямую к потребителю и технологий высокоскоростного секвенирования на предиктивное генетическое консультирование по риску рака». The Lancet Oncology . 11 (9): 890–8. doi :10.1016/S1470-2045(09)70359-6. PMID 20537948.