Секвенирование по Сэнгеру — это метод секвенирования ДНК , включающий электрофорез и основанный на случайном включении дидезоксинуклеотидов , завершающих цепь , ДНК-полимеразой во время репликации ДНК in vitro . После того, как он был впервые разработан Фредериком Сэнгером и его коллегами в 1977 году, он стал наиболее широко используемым методом секвенирования на протяжении примерно 40 лет. Автоматизированный прибор, использующий электрофорез в гелевых пластинах и флуоресцентные метки, был впервые выпущен на рынок компанией Applied Biosystems в марте 1987 года. [1] Позднее автоматизированные гелевые пластины были заменены автоматизированным электрофорезом в капиллярных матрицах. [2] Совсем недавно секвенирование по Сэнгеру в больших объемах было заменено методами секвенирования следующего поколения , особенно для крупномасштабных автоматизированных анализов генома . Однако метод Сэнгера по-прежнему широко используется для проектов меньшего масштаба и для проверки результатов глубокого секвенирования. Он по-прежнему имеет преимущество перед технологиями секвенирования с коротким считыванием (такими как Illumina), поскольку может производить считывание последовательности ДНК > 500 нуклеотидов и поддерживать очень низкий уровень ошибок с точностью около 99,99%. [3] Секвенирование по Сэнгеру по-прежнему активно используется в усилиях по инициативам общественного здравоохранения, таким как секвенирование белка спайка из SARS-CoV-2 [4], а также для наблюдения за вспышками норовируса через сеть наблюдения CaliciNet Центра по контролю и профилактике заболеваний (CDC). [5]
Классический метод терминации цепи требует одноцепочечного шаблона ДНК, праймера ДНК , ДНК-полимеразы , обычных дезоксинуклеотидтрифосфатов ( dNTP ) и модифицированных дидезоксинуклеотидтрифосфатов ( ddNTP ), последние из которых терминируют удлинение цепи ДНК. Эти нуклеотиды, завершающие цепь, не имеют 3'- ОН- группы, необходимой для образования фосфодиэфирной связи между двумя нуклеотидами, в результате чего ДНК-полимераза прекращает удлинение ДНК при включении модифицированного ddNTP. ddNTP могут быть радиоактивно или флуоресцентно помечены для обнаружения в автоматизированных машинах для секвенирования.
Образец ДНК делится на четыре отдельные реакции секвенирования, содержащие все четыре стандартных дезоксинуклеотида (dATP, dGTP, dCTP и dTTP) и ДНК-полимеразу. В каждую реакцию добавляется только один из четырех дидезоксинуклеотидов (ddATP, ddGTP, ddCTP или ddTTP), в то время как другие добавленные нуклеотиды являются обычными. Концентрация дезоксинуклеотида должна быть примерно в 100 раз выше, чем у соответствующего дидезоксинуклеотида (например, 0,5 мМ dTTP : 0,005 мМ ddTTP), чтобы можно было получить достаточно фрагментов, при этом транскрибируя полную последовательность (но концентрация ddNTP также зависит от желаемой длины последовательности). [6] Если расположить это в более разумном порядке, в этом процессе необходимы четыре отдельные реакции для проверки всех четырех ddNTP. После раундов расширения ДНК-матрицы со связанного праймера полученные фрагменты ДНК подвергаются тепловой денатурации и разделяются по размеру с помощью гель-электрофореза . В оригинальной публикации 1977 года [6] образование парных по основанию петель одноцепочечной ДНК было причиной серьезных трудностей при разрешении полос в некоторых местах. Это часто выполняется с использованием денатурирующего геля полиакриламида -мочевины, при этом каждая из четырех реакций проходит в одной из четырех отдельных полос (полосы A, T, G, C). Затем полосы ДНК можно визуализировать с помощью авторадиографии или УФ-света, а последовательность ДНК можно напрямую считать с рентгеновской пленки или изображения геля.
На изображении справа рентгеновская пленка экспонировалась в геле, и темные полосы соответствуют фрагментам ДНК разной длины. Темная полоса в дорожке указывает на фрагмент ДНК, который является результатом обрыва цепи после включения дидезоксинуклеотида (ddATP, ddGTP, ddCTP или ddTTP). Относительное положение различных полос среди четырех дорожек, снизу вверх, затем используется для считывания последовательности ДНК.
Технические вариации секвенирования с терминацией цепи включают маркировку нуклеотидами, содержащими радиоактивный фосфор, для радиоактивной маркировки или использование праймера, меченого на 5'-конце флуоресцентным красителем . Секвенирование с красителем-праймером облегчает считывание в оптической системе для более быстрого и экономичного анализа и автоматизации. Более поздняя разработка Лероя Худа и его коллег [7] [8] флуоресцентно меченых ddNTP и праймеров заложила основу для автоматизированного высокопроизводительного секвенирования ДНК.
Методы обрыва цепи значительно упростили секвенирование ДНК. Например, наборы на основе обрыва цепи доступны в продаже и содержат реагенты, необходимые для секвенирования, предварительно аликвотированные и готовые к использованию. Ограничения включают неспецифическое связывание праймера с ДНК, что влияет на точность считывания последовательности ДНК, и вторичные структуры ДНК, влияющие на точность последовательности.
Секвенирование с использованием красителя-терминатора использует маркировку терминатора цепи ddNTPs, что позволяет проводить секвенирование в одной реакции, а не в четырех, как в методе маркированного праймера. При секвенировании с использованием красителя-терминатора каждый из четырех терминаторов цепи дидезоксинуклеотида маркируется флуоресцентными красителями, каждый из которых испускает свет на разных длинах волн .
Благодаря своей большей целесообразности и скорости, секвенирование с использованием красителя-терминатора в настоящее время является основой автоматизированного секвенирования. Его ограничения включают эффекты красителя из-за различий во включении меченых красителем терминаторов цепи во фрагмент ДНК, что приводит к неравным высотам и формам пиков на электрофореграмме следа электронной последовательности ДНК (тип хроматограммы ) после капиллярного электрофореза (см. рисунок слева).
Эта проблема была решена с использованием модифицированных систем ферментов ДНК-полимеразы и красителей, которые минимизируют изменчивость включения, а также методов устранения «красящих пятен». Метод секвенирования с терминатором красителя, наряду с автоматизированными высокопроизводительными анализаторами последовательностей ДНК, использовался для подавляющего большинства проектов по секвенированию до внедрения секвенирования следующего поколения .
Автоматизированные инструменты для секвенирования ДНК ( секвенаторы ДНК ) могут секвенировать до 384 образцов ДНК в одной партии. Пакетные запуски могут происходить до 24 раз в день. Секвенаторы ДНК разделяют нити по размеру (или длине) с помощью капиллярного электрофореза , они обнаруживают и регистрируют флуоресценцию красителя и выводят данные в виде хроматограмм следов пиков флуоресценции . Реакции секвенирования ( термоциклирование и маркировка), очистка и повторное суспендирование образцов в буферном растворе выполняются отдельно, перед загрузкой образцов в секвенатор. Ряд коммерческих и некоммерческих программных пакетов могут автоматически обрезать следы ДНК низкого качества. Эти программы оценивают качество каждого пика и удаляют базовые пики низкого качества (которые обычно расположены на концах последовательности). [9] Точность таких алгоритмов уступает визуальному осмотру человеком-оператором, но достаточна для автоматизированной обработки больших наборов данных последовательностей.
Область общественного здравоохранения играет много ролей в поддержке диагностики пациентов, а также надзора за окружающей средой на предмет потенциальных токсичных веществ и циркулирующих биологических патогенов. Лаборатории общественного здравоохранения (PHL) и другие лаборатории по всему миру сыграли ключевую роль в предоставлении данных быстрого секвенирования для наблюдения за вирусом SARS-CoV-2 , возбудителем COVID-19, во время пандемии, которая была объявлена чрезвычайной ситуацией в области общественного здравоохранения 30 января 2020 года. [10] Лабораториям было поручено быстрое внедрение методов секвенирования и предоставление точных данных для помощи в моделях принятия решений для разработки политики по смягчению распространения вируса. Многие лаборатории прибегли к методологиям секвенирования следующего поколения, в то время как другие поддержали усилия с секвенированием по Сэнгеру. Усилия по секвенированию SARS-CoV-2 многочисленны, в то время как большинство лабораторий реализовали секвенирование всего генома вируса, другие решили секвенировать очень специфические гены вируса, такие как S-ген, кодирующий информацию, необходимую для производства белка спайка. Высокая скорость мутации SARS-CoV-2 приводит к генетическим различиям в гене S, и эти различия сыграли свою роль в инфекционности вируса. [11] Секвенирование гена S по Сэнгеру обеспечивает быстрый, точный и более доступный метод извлечения генетического кода. Лаборатории в странах с низким уровнем дохода могут не иметь возможности внедрять дорогостоящие приложения, такие как секвенирование следующего поколения, поэтому методы Сэнгера могут преобладать в поддержке генерации данных секвенирования для наблюдения за вариантами.
Секвенирование по Сэнгеру также является «золотым стандартом» методов наблюдения за норовирусами для сети CaliciNet Центра по контролю и профилактике заболеваний (CDC). CalciNet — это сеть наблюдения за вспышками заболеваний, созданная в марте 2009 года. Целью сети является сбор данных секвенирования циркулирующих норовирусов в Соединенных Штатах и активация последующих действий для определения источника инфекции с целью смягчения распространения вируса. Сеть CalciNet определила многие инфекции как пищевые заболевания. [5] Затем эти данные могут быть опубликованы и использованы для разработки рекомендаций по будущим действиям по предотвращению заражения продуктов питания. Методы, используемые для обнаружения норовируса, включают целевую амплификацию определенных областей генома. Затем ампликоны секвенируются с использованием терминирующего красителя секвенирования по Сэнгеру, а полученные хроматограммы и последовательности анализируются с помощью программного пакета, разработанного в BioNumerics . Последовательности отслеживаются, и изучается родство штаммов для вывода эпидемиологической значимости.
Распространенные проблемы секвенирования ДНК методом Сэнгера включают плохое качество в первых 15-40 основаниях последовательности из-за связывания праймера и ухудшение качества следов секвенирования после 700-900 оснований. Программное обеспечение для распознавания оснований, такое как Phred, обычно предоставляет оценку качества, чтобы помочь в обрезке низкокачественных областей последовательностей. [12] [13]
В случаях, когда фрагменты ДНК клонируются до секвенирования, полученная последовательность может содержать части вектора клонирования . Напротив, клонирование на основе ПЦР и технологии секвенирования следующего поколения, основанные на пиросеквенировании, часто избегают использования векторов клонирования. Недавно были разработаны методы одношагового секвенирования по Сэнгеру (комбинированная амплификация и секвенирование), такие как Ampliseq и SeqSharp, которые позволяют быстро секвенировать целевые гены без клонирования или предварительной амплификации. [14] [15]
Современные методы позволяют напрямую секвенировать только относительно короткие (длиной 300-1000 нуклеотидов ) фрагменты ДНК в одной реакции. Основным препятствием для секвенирования фрагментов ДНК, превышающих этот предельный размер, является недостаточная разделительная способность для разрешения больших фрагментов ДНК, которые отличаются по длине всего на один нуклеотид.
Микрофлюидное секвенирование по Сэнгеру — это приложение «лаборатория на чипе» для секвенирования ДНК, в котором этапы секвенирования по Сэнгеру (термоциклирование, очистка образцов и капиллярный электрофорез) интегрированы на чипе размером с пластину с использованием образцов объемом в нанолитры. Эта технология генерирует длинные и точные считывания последовательностей, устраняя при этом многие существенные недостатки традиционного метода Сэнгера (например, высокий расход дорогих реагентов, зависимость от дорогостоящего оборудования, трудоемкие манипуляции с участием персонала и т. д.) путем интеграции и автоматизации этапов секвенирования по Сэнгеру.
В своем современном зарождении высокопроизводительное секвенирование генома включает фрагментацию генома на небольшие одноцепочечные части с последующей амплификацией фрагментов с помощью полимеразной цепной реакции (ПЦР). При использовании метода Сэнгера каждый фрагмент ДНК необратимо завершается включением флуоресцентно меченого нуклеотида, завершающего дидезоксицепь, тем самым создавая «лестницу» ДНК из фрагментов, каждый из которых отличается по длине на одно основание и несет специфичную для основания флуоресцентную метку на концевом основании. Затем амплифицированные лестницы оснований разделяются с помощью капиллярного электрофореза (CAE) с автоматизированным in situ «финишным» обнаружением флуоресцентно меченых фрагментов одноцепочечной ДНК, что обеспечивает упорядоченную последовательность фрагментов. Затем эти считывания последовательностей собираются на компьютере в перекрывающиеся или смежные последовательности (называемые «контигами»), которые напоминают полную геномную последовательность после полной сборки. [16]
Методы Сэнгера достигают максимальной длины прочтения приблизительно 800 п.н. (обычно 500–600 п.н. с необогащенной ДНК). Более длинные длины прочтений в методах Сэнгера демонстрируют значительные преимущества по сравнению с другими методами секвенирования, особенно с точки зрения секвенирования повторяющихся областей генома. Проблема данных о коротких прочтениях последовательностей особенно актуальна при секвенировании новых геномов (de novo) и при секвенировании сильно перестроенных сегментов генома, как правило, тех, которые наблюдаются в геномах раковых клеток или в областях хромосом, которые демонстрируют структурные вариации. [17]
Другие полезные приложения секвенирования ДНК включают обнаружение полиморфизма одного нуклеотида (SNP), гетеродуплексный анализ полиморфизма одноцепочечной конформации (SSCP) и анализ коротких тандемных повторов (STR). Разрешение фрагментов ДНК в соответствии с различиями в размере и/или конформации является наиболее важным шагом в изучении этих особенностей генома. [16]
Чип секвенирования имеет четырехслойную конструкцию, состоящую из трех стеклянных пластин диаметром 100 мм (на которых микроизготовлены элементы устройства) и мембраны из полидиметилсилоксана (PDMS). Реакционные камеры и каналы капиллярного электрофореза протравлены между двумя верхними стеклянными пластинами, которые термически соединены. Трехмерные канальные взаимосвязи и микроклапаны образованы PDMS и нижней коллекторной стеклянной пластиной.
Устройство состоит из трех функциональных блоков, каждый из которых соответствует шагам секвенирования по Сэнгеру. Блок термоциклирования (TC) представляет собой реакционную камеру объемом 250 нанолитров со встроенным резистивным датчиком температуры, микроклапанами и поверхностным нагревателем. Перемещение реагента между верхним полностью стеклянным слоем и нижним слоем стекло-PDMS происходит через сквозные отверстия диаметром 500 мкм. После термоциклирования реакционная смесь проходит очистку в камере захвата/очистки, а затем вводится в камеру капиллярного электрофореза (CE). Блок CE состоит из капилляра длиной 30 см, который сложен в компактную схему переключения с помощью поворотов шириной 65 мкм.
Платформа Apollo 100 (Microchip Biotechnologies Inc., Дублин, Калифорния) [18] объединяет первые два этапа секвенирования по Сэнгеру (термоциклирование и очистка) в полностью автоматизированной системе. Производитель утверждает, что образцы готовы к капиллярному электрофорезу в течение трех часов после загрузки образца и реагентов в систему. Платформа Apollo 100 требует субмикролитровых объемов реагентов.
Конечной целью высокопроизводительного секвенирования является разработка систем, которые являются недорогими и чрезвычайно эффективными для получения расширенных (более длинных) длин считывания. Более длинные длины считывания каждого отдельного электрофоретического разделения существенно снижают стоимость, связанную с de novo секвенированием ДНК и числом шаблонов, необходимых для секвенирования контигов ДНК при заданной избыточности. Микрофлюидика может обеспечить более быструю, дешевую и легкую сборку последовательностей. [16]
Мы разработали метод частичной автоматизации анализа последовательности ДНК. Флуоресцентное обнаружение фрагментов ДНК осуществляется с помощью флуорофора, ковалентно присоединенного к олигонуклеотидному праймеру, используемому в ферментативном анализе последовательности ДНК. Для каждой из реакций, специфичных для оснований A, C, G и T, используется флуорофор разного цвета. Реакционные смеси объединяются и подвергаются совместному электрофорезу в одной пробирке с полиакриламидным гелем, разделенные флуоресцентные полосы ДНК обнаруживаются вблизи дна пробирки, а информация о последовательности собирается непосредственно компьютером.