stringtranslate.com

Цифровое вычитание транскриптома

Рис. 1. Вычитание цифрового транскриптома

Цифровое вычитание транскриптома ( DTS ) — это биоинформатический метод обнаружения присутствия новых патогенных транскриптов посредством вычислительного удаления последовательностей хозяина. DTS — это прямой аналог in silico подхода wet-lab representational difference analysis (RDA), и он стал возможным благодаря беспристрастному высокопроизводительному секвенированию и наличию высококачественного аннотированного референтного генома хозяина. Метод специально исследует этиологический агент инфекционных заболеваний и наиболее известен благодаря обнаружению полиомавируса клеток Меркеля , предполагаемого возбудителя карциномы клеток Меркеля . [1]

История

Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и др. [2] с использованием наборов данных человеческих экспрессируемых последовательностей тегов (EST) . В эксперименте по доказательству принципа Мейерсон и др. продемонстрировали, что это был осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барр, при посттрансплантационном лимфопролиферативном расстройстве (PTLD) . [3]

В 2007 году группа Чанга - Мура ввела термин «цифровое вычитание транскриптома» [4] и использовала его для обнаружения полимавируса клеток Меркеля в карциноме из клеток Меркеля . [1]

Одновременно с открытием MCV этот подход был использован для того, чтобы предположить, что новый аренавирус стал причиной летального исхода в случае, когда три пациента умерли от схожих заболеваний вскоре после трансплантации органов от одного донора. [5]

Метод

Рис. 2. Необработанный расшифровочный анализ 20 000 клонов, полученных из инфицированных вирусом тканей человека. Вирусные транскрипты присутствовали в 0,03% от общего числа прочтений последовательности. [3]

Создание библиотеки кДНК

После обработки ДНКазой I для устранения геномной ДНК человека из первично инфицированной ткани извлекается общая РНК . Затем информационная РНК очищается с использованием колонки олиго-dT, которая связывается с поли-A-хвостом , сигналом, специфически обнаруженным на транскрибированных генах. Используя праймирование случайных гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E. coli , затем трансформируются с использованием векторов кДНК и отбираются с использованием маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. Это создает снимок тканевой мРНК, который стабилен и может быть секвенирован на более поздней стадии.

Секвенирование и контроль качества

Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов) для обнаружения теоретической редкой последовательности патогена (таблица 1), особенно если чужеродная последовательность является новой. Чанг-Мур рекомендует глубину секвенирования 200 000 транскриптов или больше с использованием нескольких платформ секвенирования. [1]

Затем к необработанным последовательностям применяется строгий контроль качества для минимизации ложноположительных результатов. Первоначальный скрининг качества использует несколько общих параметров для исключения неоднозначных последовательностей, оставляя набор данных высокоточных (Hi-Fi) прочтений.

BLAST для размещения генома

Используя MEGABLAST, Hi-Fi-чтения затем сопоставляются с последовательностями в аннотированных базах данных, и любые положительные совпадения затем вычитаются из набора данных. Минимальная длина попадания для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует баллу BLAST 60; как правило, оставшаяся последовательность снова проходит BLAST с менее строгими параметрами, чтобы допустить небольшие несовпадения (1 из 20 нуклеотидов). Подавляющее большинство последовательностей (>99%) следует удалить из набора данных на этом этапе.

Вычитаемые последовательности обычно включают в себя:

Анализ кандидатов «не принимающей стороны»

Соответствие базам данных патогенов

После строгих раундов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, выравнивания нуклеотид-нуклеотид, или blastn [ сломанный якорь ] , обычно неинформативны, поскольку возможно наличие мутаций в определенных основаниях без изменения аминокислотного остатка из-за вырожденности кодонов . Сопоставление транслируемых in silico последовательностей белков всех 6 открытых рамок считывания с последовательностью аминокислот аннотированных белков, или blastx [ сломанный якорь ] , является предпочтительным методом выравнивания, поскольку это увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом/видом. [5] Экспериментальное расширение последовательностей-кандидатов также может использоваться на этом этапе для максимизации шансов положительного совпадения. [6]

De novoсборка

В случаях, когда выравнивание с известными патогенами неинформативно или неоднозначно, контиги последовательности-кандидата можно использовать в качестве шаблонов для праймерного обхода в первично инфицированной ткани для создания полной последовательности генома патогена. [1] [5] Поскольку вирусные транскрипты чрезвычайно редки по отношению к тканевой мРНК (10 транскриптов на 1 миллион), [1] маловероятно, что можно будет создать транскриптом, основанный только на исходных последовательностях-кандидатах из-за низкого покрытия .

Проверка патогена

После того, как предполагаемый патоген был идентифицирован в данных высокопроизводительного секвенирования, крайне важно подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:

Приложения

Основное применение DTS заключается в идентификации патогенных вирусов при раке. [1] [4] Его также можно использовать для идентификации вирусных патогенов при заболеваниях, не связанных с раком. [5] Будущие клинические приложения могут включать использование DTS на регулярной основе у отдельных лиц. DTS также может применяться в сельском хозяйстве , выявляя патогены, которые влияют на производительность. Вычитание вычислений уже использовалось в исследовании метагеномики , которое связывало вирусную инфекцию IAPV с расстройством разрушения колонии у медоносных пчел . [7]

Преимущества

Недостатки

Ссылки

  1. ^ abcdef Feng H, Shuda M, Chang Y, Moore PS (январь 2008 г.). «Клональная интеграция полиомавируса в карциному Меркеля у человека». Science . 5866. 319 (5866): 1096–1100. Bibcode :2008Sci...319.1096F. doi :10.1126/science.1152586. PMC  2740911 . PMID  18202256.
  2. ^ ab Weber G, Shendure J, Tanenbaum DM, Church GM, Meyerson M (февраль 2002 г.). «Идентификация последовательностей чужеродных генов с помощью фильтрации транскриптов против генома человека». Nat Genet . 2. 30 (2): 141–142. doi :10.1038/ng818. PMID  11788827. S2CID  21842679.
  3. ^ ab Xu Y, Stange-Thomann N, Weber G, Bo R, Dodge S, David RG, Foley K, Beheshti J, Harris NL, Birren B, Lander ES, Meyerson M (март 2003 г.). «Обнаружение патогенов в тканях человека с помощью вычислительного вычитания на основе последовательностей». Genomics . 3. 81 (3): 329–335. doi :10.1016/S0888-7543(02)00043-5. PMID  12659816.
  4. ^ ab Feng H, Taylor JL, Benos PV, Newton R, Waddell K, Lucas SB, Chang Y, Moore PS (август 2007 г.). «Вычитание человеческого транскриптома с использованием коротких последовательностей меток для поиска опухолевых вирусов в конъюнктивальной карциноме». J Virol . 20. 81 (20): 11332–11340. doi :10.1128/JVI.00875-07. PMC 2045575 . PMID  17686852. 
  5. ^ abcd Паласиос Г, Дрюс Дж, Ду Л, Тран Т, Берч С, Бриз Т, Конлан С, Цюань П.Л., Хуэй Дж, Маршалл Дж, Саймонс Дж. Ф., Эгольм М., Паддок CD, Ши В.Дж., Голдсмит CS, Заки С.Р., Кэттон М., Липкин В.И. (март 2008 г.). «Новый аренавирус в группе смертельных заболеваний, связанных с трансплантацией». N Engl J Med . 10. 358 (10): 991–998. CiteSeerX 10.1.1.453.2859 . doi : 10.1056/NEJMoa073785. ПМИД  18256387. 
  6. ^ Chang Y, Moore PS. "New Pathogen Discovery: Digital Transcriptome Subtraction". Архивировано из оригинала 25 января 2010 г. Получено 1 марта 2012 г.
  7. ^ Cox-Foster DL, Conlan S, Holmes EC, Palacios G, Evans JD, Moran NA, Quan PL, Briese T, Hornig M, Geiser DM, Martinson V, vanEngelsdorp D, Kalkstein AL, Drysdale A, Hui J, Zhai J, Cui L, Hutchison SK, Simons JF, Egholm M, Pettis JS, Lipkin WI (октябрь 2007 г.). "Метагеномное исследование микробов при расстройстве коллапса колонии медоносных пчел". Science . 5848. 318 (5848): 283–287. Bibcode :2007Sci...318..283C. doi : 10.1126/science.1146498 . PMID  17823314. S2CID  14013425.
  8. ^ abcd MacConaill L, Meyerson M (апрель 2008 г.). «Добавление патогенов путем геномного вычитания». Nat Genet . 4. 40 (4): 380–382. doi :10.1038/ng0408-380. PMID  18368124.