Цифровое вычитание транскриптома ( DTS ) — это биоинформатический метод обнаружения присутствия новых патогенных транскриптов посредством вычислительного удаления последовательностей хозяина. DTS — это прямой аналог in silico подхода wet-lab representational difference analysis (RDA), и он стал возможным благодаря беспристрастному высокопроизводительному секвенированию и наличию высококачественного аннотированного референтного генома хозяина. Метод специально исследует этиологический агент инфекционных заболеваний и наиболее известен благодаря обнаружению полиомавируса клеток Меркеля , предполагаемого возбудителя карциномы клеток Меркеля . [1]
Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и др. [2] с использованием наборов данных человеческих экспрессируемых последовательностей тегов (EST) . В эксперименте по доказательству принципа Мейерсон и др. продемонстрировали, что это был осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барр, при посттрансплантационном лимфопролиферативном расстройстве (PTLD) . [3]
В 2007 году группа Чанга - Мура ввела термин «цифровое вычитание транскриптома» [4] и использовала его для обнаружения полимавируса клеток Меркеля в карциноме из клеток Меркеля . [1]
Одновременно с открытием MCV этот подход был использован для того, чтобы предположить, что новый аренавирус стал причиной летального исхода в случае, когда три пациента умерли от схожих заболеваний вскоре после трансплантации органов от одного донора. [5]
После обработки ДНКазой I для устранения геномной ДНК человека из первично инфицированной ткани извлекается общая РНК . Затем информационная РНК очищается с использованием колонки олиго-dT, которая связывается с поли-A-хвостом , сигналом, специфически обнаруженным на транскрибированных генах. Используя праймирование случайных гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E. coli , затем трансформируются с использованием векторов кДНК и отбираются с использованием маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. Это создает снимок тканевой мРНК, который стабилен и может быть секвенирован на более поздней стадии.
Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов) для обнаружения теоретической редкой последовательности патогена (таблица 1), особенно если чужеродная последовательность является новой. Чанг-Мур рекомендует глубину секвенирования 200 000 транскриптов или больше с использованием нескольких платформ секвенирования. [1]
Затем к необработанным последовательностям применяется строгий контроль качества для минимизации ложноположительных результатов. Первоначальный скрининг качества использует несколько общих параметров для исключения неоднозначных последовательностей, оставляя набор данных высокоточных (Hi-Fi) прочтений.
Используя MEGABLAST, Hi-Fi-чтения затем сопоставляются с последовательностями в аннотированных базах данных, и любые положительные совпадения затем вычитаются из набора данных. Минимальная длина попадания для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует баллу BLAST 60; как правило, оставшаяся последовательность снова проходит BLAST с менее строгими параметрами, чтобы допустить небольшие несовпадения (1 из 20 нуклеотидов). Подавляющее большинство последовательностей (>99%) следует удалить из набора данных на этом этапе.
Вычитаемые последовательности обычно включают в себя:
После строгих раундов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, выравнивания нуклеотид-нуклеотид, или blastn [ сломанный якорь ] , обычно неинформативны, поскольку возможно наличие мутаций в определенных основаниях без изменения аминокислотного остатка из-за вырожденности кодонов . Сопоставление транслируемых in silico последовательностей белков всех 6 открытых рамок считывания с последовательностью аминокислот аннотированных белков, или blastx [ сломанный якорь ] , является предпочтительным методом выравнивания, поскольку это увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом/видом. [5] Экспериментальное расширение последовательностей-кандидатов также может использоваться на этом этапе для максимизации шансов положительного совпадения. [6]
В случаях, когда выравнивание с известными патогенами неинформативно или неоднозначно, контиги последовательности-кандидата можно использовать в качестве шаблонов для праймерного обхода в первично инфицированной ткани для создания полной последовательности генома патогена. [1] [5] Поскольку вирусные транскрипты чрезвычайно редки по отношению к тканевой мРНК (10 транскриптов на 1 миллион), [1] маловероятно, что можно будет создать транскриптом, основанный только на исходных последовательностях-кандидатах из-за низкого покрытия .
После того, как предполагаемый патоген был идентифицирован в данных высокопроизводительного секвенирования, крайне важно подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:
Основное применение DTS заключается в идентификации патогенных вирусов при раке. [1] [4] Его также можно использовать для идентификации вирусных патогенов при заболеваниях, не связанных с раком. [5] Будущие клинические приложения могут включать использование DTS на регулярной основе у отдельных лиц. DTS также может применяться в сельском хозяйстве , выявляя патогены, которые влияют на производительность. Вычитание вычислений уже использовалось в исследовании метагеномики , которое связывало вирусную инфекцию IAPV с расстройством разрушения колонии у медоносных пчел . [7]