Цифровое вычитание транскриптома

Цифровое вычитание транскриптома ( DTS ) — это биоинформатический метод обнаружения присутствия новых патогенных транскриптов посредством вычислительного удаления последовательностей хозяина. DTS — это прямой аналог in silico подхода wet-lab representational difference analysis (RDA), и он стал возможным благодаря беспристрастному высокопроизводительному секвенированию и наличию высококачественного аннотированного референтного генома хозяина. Метод специально исследует этиологический агент инфекционных заболеваний и наиболее известен благодаря обнаружению полиомавируса клеток Меркеля , предполагаемого возбудителя карциномы клеток Меркеля . ^[1]

История

Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и др. ^[2] с использованием наборов данных человеческих экспрессируемых последовательностей тегов (EST) . В эксперименте по доказательству принципа Мейерсон и др. продемонстрировали, что это был осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барр, при посттрансплантационном лимфопролиферативном расстройстве (PTLD) . ^[3]

В 2007 году группа Чанга - Мура ввела термин «цифровое вычитание транскриптома» ^[4] и использовала его для обнаружения полимавируса клеток Меркеля в карциноме из клеток Меркеля . ^[1]

Одновременно с открытием MCV этот подход был использован для того, чтобы предположить, что новый аренавирус стал причиной летального исхода в случае, когда три пациента умерли от схожих заболеваний вскоре после трансплантации органов от одного донора. ^[5]

Метод

Рис. 2. Необработанный расшифровочный анализ 20 000 клонов, полученных из инфицированных вирусом тканей человека. Вирусные транскрипты присутствовали в 0,03% от общего числа прочтений последовательности. ^[3]

Создание библиотеки кДНК

После обработки ДНКазой I для устранения геномной ДНК человека из первично инфицированной ткани извлекается общая РНК . Затем информационная РНК очищается с использованием колонки олиго-dT, которая связывается с поли-A-хвостом , сигналом, специфически обнаруженным на транскрибированных генах. Используя праймирование случайных гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E. coli , затем трансформируются с использованием векторов кДНК и отбираются с использованием маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. Это создает снимок тканевой мРНК, который стабилен и может быть секвенирован на более поздней стадии.

Секвенирование и контроль качества

Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов) для обнаружения теоретической редкой последовательности патогена (таблица 1), особенно если чужеродная последовательность является новой. Чанг-Мур рекомендует глубину секвенирования 200 000 транскриптов или больше с использованием нескольких платформ секвенирования. ^[1]

Затем к необработанным последовательностям применяется строгий контроль качества для минимизации ложноположительных результатов. Первоначальный скрининг качества использует несколько общих параметров для исключения неоднозначных последовательностей, оставляя набор данных высокоточных (Hi-Fi) прочтений.

Низкий порог оценки Phred используется для удаления низкокачественных конечных последовательностей. Обычно порог оценки Phred 20 или 30 используется для обеспечения точности 99%-99,9% в каждом базовом вызове.
Удаление вектора и адаптера.
Низкая сложность — показатель сложности последовательности отражает количество идентичных оснований в серии (гомополимеры), такие как поли-dT или поли-dA.
Повторяющаяся ДНК человека .
Длина — параметр зависит от оптимизированной длины считывания, характерной для используемой технологии секвенирования .
BLAST и исключить последовательности генома E. coli .

BLAST для размещения генома

Используя MEGABLAST, Hi-Fi-чтения затем сопоставляются с последовательностями в аннотированных базах данных, и любые положительные совпадения затем вычитаются из набора данных. Минимальная длина попадания для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует баллу BLAST 60; как правило, оставшаяся последовательность снова проходит BLAST с менее строгими параметрами, чтобы допустить небольшие несовпадения (1 из 20 нуклеотидов). Подавляющее большинство последовательностей (>99%) следует удалить из набора данных на этом этапе.

Вычитаемые последовательности обычно включают в себя:

Референтный транскриптом человека — исключает любые известные транскрипты человека из наборов библиотек экспрессии.
Референсный геном человека — исключает гены, пропущенные в процессе аннотации, и любые загрязняющие геномные последовательности во время построения библиотеки кДНК.
Митохондриальная ДНК . Митохондриальная ДНК очень распространена и полиморфна из-за высокой скорости мутаций.
Иммуноглобулиновый регион . Локусы иммуноглобулинов высокополиморфны и в противном случае давали бы ложноположительные результаты из-за плохого соответствия эталонному геному.
Другие последовательности позвоночных
Неаннотированные последовательности

Анализ кандидатов «не принимающей стороны»

Соответствие базам данных патогенов

После строгих раундов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, выравнивания нуклеотид-нуклеотид, или blastn ^{[ сломанный якорь ]} , обычно неинформативны, поскольку возможно наличие мутаций в определенных основаниях без изменения аминокислотного остатка из-за вырожденности кодонов . Сопоставление транслируемых in silico последовательностей белков всех 6 открытых рамок считывания с последовательностью аминокислот аннотированных белков, или blastx ^{[ сломанный якорь ]} , является предпочтительным методом выравнивания, поскольку это увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом/видом. ^[5] Экспериментальное расширение последовательностей-кандидатов также может использоваться на этом этапе для максимизации шансов положительного совпадения. ^[6]

De novoсборка

В случаях, когда выравнивание с известными патогенами неинформативно или неоднозначно, контиги последовательности-кандидата можно использовать в качестве шаблонов для праймерного обхода в первично инфицированной ткани для создания полной последовательности генома патогена. ^[1]^[5] Поскольку вирусные транскрипты чрезвычайно редки по отношению к тканевой мРНК (10 транскриптов на 1 миллион), ^[1] маловероятно, что можно будет создать транскриптом, основанный только на исходных последовательностях-кандидатах из-за низкого покрытия .

Проверка патогена

После того, как предполагаемый патоген был идентифицирован в данных высокопроизводительного секвенирования, крайне важно подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:

ОТ-ПЦР и производные методы, включая 3'- и 5'-RACE, для подтверждения существования мРНК патогена.
Иммуногистохимия с использованием антител к родственному патогену для определения наличия патогена в тканях.
Серологические тесты для измерения титра антител , специфичных к патогену .
Бактериальная культура / вирусная культура , которая считается золотым стандартом в лабораторной диагностике.

Приложения

Основное применение DTS заключается в идентификации патогенных вирусов при раке. ^[1]^[4] Его также можно использовать для идентификации вирусных патогенов при заболеваниях, не связанных с раком. ^[5] Будущие клинические приложения могут включать использование DTS на регулярной основе у отдельных лиц. DTS также может применяться в сельском хозяйстве , выявляя патогены, которые влияют на производительность. Вычитание вычислений уже использовалось в исследовании метагеномики , которое связывало вирусную инфекцию IAPV с расстройством разрушения колонии у медоносных пчел . ^[7]

Преимущества

Не требует предварительных знаний о последовательности патогена. ^[8]
Позволяет выявлять ранее не ассоциированные, потенциально поддающиеся лечению патогены.
Использует уже имеющиеся молекулярные методы и ресурсы.

Недостатки

Определяет наличие патогена, но не устанавливает причинно-следственную связь с заболеванием. ^[8] См. постулат Коха и критерии Брэдфорда Хилла .
Необходимо иметь высоконадежный, полный референтный транскриптом для изучаемого организма. ^[8]
Отсутствие идентификации чужеродной последовательности не может полностью исключить патогенное инородное тело. ^[8]

Ссылки

^ abcdef Feng H, Shuda M, Chang Y, Moore PS (январь 2008 г.). «Клональная интеграция полиомавируса в карциному Меркеля у человека». Science . 5866. 319 (5866): 1096–1100. Bibcode :2008Sci...319.1096F. doi :10.1126/science.1152586. PMC 2740911 . PMID 18202256.
^ ab Weber G, Shendure J, Tanenbaum DM, Church GM, Meyerson M (февраль 2002 г.). «Идентификация последовательностей чужеродных генов с помощью фильтрации транскриптов против генома человека». Nat Genet . 2. 30 (2): 141–142. doi :10.1038/ng818. PMID 11788827. S2CID 21842679.
^ ab Xu Y, Stange-Thomann N, Weber G, Bo R, Dodge S, David RG, Foley K, Beheshti J, Harris NL, Birren B, Lander ES, Meyerson M (март 2003 г.). «Обнаружение патогенов в тканях человека с помощью вычислительного вычитания на основе последовательностей». Genomics . 3. 81 (3): 329–335. doi :10.1016/S0888-7543(02)00043-5. PMID 12659816.
^ ab Feng H, Taylor JL, Benos PV, Newton R, Waddell K, Lucas SB, Chang Y, Moore PS (август 2007 г.). «Вычитание человеческого транскриптома с использованием коротких последовательностей меток для поиска опухолевых вирусов в конъюнктивальной карциноме». J Virol . 20. 81 (20): 11332–11340. doi :10.1128/JVI.00875-07. PMC 2045575 . PMID 17686852.
^ abcd Паласиос Г, Дрюс Дж, Ду Л, Тран Т, Берч С, Бриз Т, Конлан С, Цюань П.Л., Хуэй Дж, Маршалл Дж, Саймонс Дж. Ф., Эгольм М., Паддок CD, Ши В.Дж., Голдсмит CS, Заки С.Р., Кэттон М., Липкин В.И. (март 2008 г.). «Новый аренавирус в группе смертельных заболеваний, связанных с трансплантацией». N Engl J Med . 10. 358 (10): 991–998. CiteSeerX 10.1.1.453.2859 . doi : 10.1056/NEJMoa073785. ПМИД 18256387.
^ Chang Y, Moore PS. "New Pathogen Discovery: Digital Transcriptome Subtraction". Архивировано из оригинала 25 января 2010 г. Получено 1 марта 2012 г.
^ Cox-Foster DL, Conlan S, Holmes EC, Palacios G, Evans JD, Moran NA, Quan PL, Briese T, Hornig M, Geiser DM, Martinson V, vanEngelsdorp D, Kalkstein AL, Drysdale A, Hui J, Zhai J, Cui L, Hutchison SK, Simons JF, Egholm M, Pettis JS, Lipkin WI (октябрь 2007 г.). "Метагеномное исследование микробов при расстройстве коллапса колонии медоносных пчел". Science . 5848. 318 (5848): 283–287. Bibcode :2007Sci...318..283C. doi : 10.1126/science.1146498 . PMID 17823314. S2CID 14013425.
^ abcd MacConaill L, Meyerson M (апрель 2008 г.). «Добавление патогенов путем геномного вычитания». Nat Genet . 4. 40 (4): 380–382. doi :10.1038/ng0408-380. PMID 18368124.