Метатранскриптомика — это набор методов, используемых для изучения экспрессии генов микробов в естественной среде, т. е. метатранскриптома. [1]
В то время как метагеномика фокусируется на изучении геномного содержания и на определении того, какие микробы присутствуют в сообществе, метатранскриптомика может использоваться для изучения разнообразия активных генов в таком сообществе, для количественной оценки уровней их экспрессии и для мониторинга того, как эти уровни изменяются в различных условиях (например, физиологические и патологические состояния в организме). Преимущество метатранскриптомики заключается в том, что она может предоставить информацию о различиях в активных функциях микробных сообществ, которые в противном случае, казалось бы, имеют схожий состав. [2]
Микробиом определяется как микробное сообщество, занимающее четко определенную среду обитания. [3] Эти сообщества вездесущи и могут играть ключевую роль в поддержании характеристик своей среды, а дисбаланс в этих сообществах может негативно влиять на деятельность среды, в которой они находятся. Для изучения этих сообществ, а затем определения их воздействия и корреляции с их нишей использовались различные подходы омики . В то время как метагеномика может помочь исследователям создать таксономический профиль образца, метатранскриптомика обеспечивает функциональный профиль, анализируя, какие гены экспрессируются сообществом. Можно сделать вывод о том, какие гены экспрессируются при определенных условиях, и это можно сделать с помощью функциональных аннотаций экспрессируемых генов.
Поскольку метатранскриптомика фокусируется на том, какие гены экспрессируются, она позволяет охарактеризовать активный функциональный профиль всего микробного сообщества. [4] Обзор экспрессии генов в данном образце получается путем захвата общей мРНК микробиома и выполнения секвенирования методом дробовика в рамках метатранскриптомики .
Хотя микрочипы могут быть использованы для определения профилей экспрессии генов некоторых модельных организмов, предпочтительными методами в метатранскриптомике являются секвенирование следующего поколения и секвенирование третьего поколения . Протокол, который используется для проведения анализа метатранскриптома, может различаться в зависимости от типа образца, который необходимо проанализировать. Действительно, было разработано много различных протоколов для изучения метатранскриптома микробных образцов. Как правило, этапы включают сбор образцов, извлечение РНК (в литературе описаны различные методы извлечения для разных видов образцов), обогащение мРНК, синтез кДНК и подготовку метатранскриптомных библиотек, секвенирование, обработку и анализ данных. Обогащение мРНК является одним из наиболее технически сложных этапов, для которого были предложены различные стратегии:
Последние две стратегии не рекомендуются, поскольку, как сообщается, они весьма предвзяты. [6]
Типичный процесс анализа метатранскриптома:
Первая стратегия сопоставляет прочтения с референтными геномами в базах данных для сбора информации, которая полезна для выведения относительной экспрессии отдельных генов. Метатранскриптомные прочтения сопоставляются с базами данных с использованием инструментов выравнивания, таких как Bowtie2 , BWA и BLAST . Затем результаты аннотируются с использованием таких ресурсов, как GO , KEGG , COG и Swiss-Prot . Окончательный анализ результатов проводится в зависимости от цели исследования. Одним из последних методов метатранскриптомики является зондирование стабильными изотопами (SIP), которое использовалось для получения определенных целевых транскриптомов аэробных микробов в озерных отложениях. [7] Ограничением этой стратегии является ее зависимость от информации референтных геномов в базах данных.
Вторая стратегия извлекает изобилие в экспрессии различных генов путем сборки метатранскриптомных считываний в более длинные фрагменты, называемые контигами, с использованием другого программного обеспечения. Сообщалось, что программное обеспечение Trinity для RNA-seq , в сравнении с другими de novo транскриптомными ассемблерами, извлекает больше полноразмерных транскриптов в широком диапазоне уровней экспрессии с чувствительностью, аналогичной методам, которые полагаются на выравнивание генома. Это особенно важно при отсутствии референсного генома. [8]
Количественный конвейер для транскриптомного анализа был разработан Ли и Дьюи [9] и назван RSEM (RNA-Seq by Expectation Maximization). Он может работать как автономное программное обеспечение или как плагин для Trinity. RSEM начинается с референтного транскриптома или сборки вместе с считываниями RNA-Seq, полученными из образца, и вычисляет нормализованное количество транскриптов (то есть количество считываний RNA-Seq, соответствующих каждому референтному транскриптому или сборке). [10] [11]
Хотя и Trinity, и RSEM были разработаны для транскриптомных наборов данных (т.е. полученных от одного организма), их можно применять и к метатранскриптомным данным (т.е. полученным от целого микробного сообщества). [12] [13] [14] [15] [16] [17]
Использование инструментов вычислительного анализа стало более важным по мере роста возможностей секвенирования ДНК, особенно в метагеномном и метатранскриптомном анализе, который может генерировать огромный объем данных. Для этих целей было разработано множество различных биоинформатических конвейеров, часто в виде платформ с открытым исходным кодом, таких как HUMAnN и более поздние HUMAnN2, MetaTrans, SAMSA, Leimena-2013 и mOTUs2. [18]
HUMAnN2 — это биоинформатический конвейер, разработанный на основе предыдущего программного обеспечения HUMAnN, которое было разработано в ходе проекта Human Microbiome Project (HMP), реализующий подход «многоуровневого поиска». На первом уровне HUMAnN2 проверяет считывания ДНК или РНК с помощью MetaPhlAn2, чтобы идентифицировать уже известные микробы и создать базу данных, специфичную для образца, путем слияния пангеномов аннотированных видов; на втором уровне алгоритм выполняет сопоставление считываний с собранной базой данных пангеномов; на третьем уровне невыровненные считывания используются для транслируемого поиска с использованием базы данных белков. [19]
MetaTrans — это конвейер, который использует многопоточность для повышения эффективности. Данные получаются из парно-концевого РНК-Seq, в основном из 16S РНК для таксономии и мРНК для уровней экспрессии генов. Конвейер разделен на 4 основных этапа. Во-первых, парно-концевые чтения фильтруются для целей контроля качества, затем сортируются и фильтруются для таксономического анализа (путем удаления последовательностей тРНК) или функционального анализа (путем удаления как тРНК, так и рРНК). Для таксономического анализа последовательности сопоставляются с базой данных 16S рРНК Greengenes v13.5 с помощью SOAP2, в то время как для функционального анализа последовательности сопоставляются с функциональной базой данных, такой как MetaHIT-2014, всегда с помощью инструмента SOAP2. Этот конвейер очень гибкий, поскольку он дает возможность использовать сторонние инструменты и улучшать отдельные модули, пока сохраняется общая структура. [20]
Этот конвейер разработан специально для анализа метатранскриптомных данных, работая совместно с сервером MG-RAST для метагеномики. Этот конвейер прост в использовании, требует низкой технической подготовки и вычислительной мощности и может применяться к широкому спектру микробов. Сначала последовательности из необработанных данных секвенирования фильтруются по качеству, а затем отправляются в MG-RAST (который выполняет дальнейшие шаги, такие как контроль качества, вызов генов, кластеризация аминокислотных последовательностей и использование sBLAT на каждом кластере для обнаружения наилучших совпадений). Затем совпадения агрегируются для целей таксономического и функционального анализа. [21]
Этот конвейер не имеет официального названия и обычно упоминается с использованием первого автора статьи, в которой он описан. Этот алгоритм предусматривает реализацию инструментов выравнивания, таких как BLAST и MegaBLAST. Чтения группируются в группы идентичных последовательностей, а затем обрабатываются для удаления последовательностей тРНК и рРНК in-silico . Оставшиеся чтения затем сопоставляются с базами данных NCBI с помощью BLAST и MegaBLAST, затем классифицируются по их битсчёту. Последовательности с более высокими битсчётами используются для прогнозирования филогенетического происхождения и функции, а чтения с более низкими баллами выравниваются с более чувствительным BLASTX и в конечном итоге могут быть выравниваны в базах данных белков, чтобы можно было охарактеризовать их функцию. [12]
Профилировщик mOTUs2 [22] , основанный на основных генах домашнего хозяйства , наглядно демонстрирует, что он хорошо подходит для количественной оценки базальной транскрипционной активности членов микробного сообщества. [ требуется цитирование ] В зависимости от условий окружающей среды количество транскриптов на клетку варьируется для большинства генов. Исключением являются гены домашнего хозяйства, которые экспрессируются конститутивно и с низкой изменчивостью в различных условиях. [ требуется цитирование ] Таким образом, обилие транскриптов таких генов сильно коррелирует с обилием активных клеток в сообществе.
Другим методом, который можно использовать для метатранскриптомных целей, является тайлинг микрочипов . В частности, микрочипы использовались для измерения уровней микробной транскрипции, для обнаружения новых транскриптов и для получения информации о структуре мРНК (например, границах НТР). В последнее время его также использовали для поиска новых регуляторных некодируемых РНК. Однако микрочипы подвержены некоторым подводным камням:
RNA-Seq может преодолеть эти ограничения: он не требует никаких предварительных знаний о геномах, которые должны быть проанализированы, и обеспечивает высокопроизводительную проверку предсказания генов, структуры, экспрессии. Таким образом, путем объединения двух подходов можно получить более полное представление бактериального транскриптома. [1]
В последние годы микробиом кишечника стал играть важную роль в здоровье человека. Его основные функции связаны с ферментацией неперевариваемых пищевых компонентов, конкуренцией с патогенами, укреплением кишечного барьера, стимуляцией и регуляцией иммунной системы. [23] [24] [25 ] [ 26] [27] [28] [29] Хотя за последние годы о сообществе микробиома стало известно много нового, широкое разнообразие микроорганизмов и молекул в кишечнике требует новых инструментов для новых открытий. Сосредоточившись на изменениях в экспрессии генов, метатранскриптомика может создать более динамичную картину состояния и активности микробиома, чем метагеномика. Было отмечено, что метатранскриптомные функциональные профили более изменчивы, чем те, которые можно было бы предсказать только на основе метагеномной информации. Это говорит о том, что не относящиеся к домашнему хозяйству гены не экспрессируются стабильно in situ [30] [31]
Одним из примеров метатранскриптомного применения является изучение микробиома кишечника при воспалительных заболеваниях кишечника. Воспалительные заболевания кишечника (ВЗК) — это группа хронических заболеваний пищеварительного тракта, поражающих миллионы людей во всем мире. [32] Несколько генетических мутаций человека связаны с повышенной восприимчивостью к ВЗК, но для полного развития заболевания необходимы дополнительные факторы.
Что касается взаимосвязи между ВЗК и микробиомом кишечника, известно, что у пациентов с ВЗК наблюдается дисбактериоз , но микробные таксономические профили могут сильно различаться у разных пациентов, что затрудняет причастность конкретных видов или штаммов микроорганизмов к возникновению и прогрессированию заболевания. Кроме того, состав микробиома кишечника сильно варьируется с течением времени у разных людей, причем более выраженные изменения наблюдаются у пациентов с ВЗК. [33] [34] Функциональный потенциал организма, то есть гены и пути, закодированные в его геноме, дает лишь косвенную информацию об уровне или степени активации таких функций. Таким образом, измерение функциональной активности (экспрессии генов) имеет решающее значение для понимания механизма дисбактериоза микробиома кишечника.
Изменения в транскрипционной активности при ВЗК, установленные на основе экспрессии рРНК, указывают на то, что некоторые популяции бактерий активны у пациентов с ВЗК, в то время как другие группы неактивны или находятся в латентном состоянии. [35]
Метатранскриптомный анализ, измеряющий функциональную активность микробиома кишечника, выявляет информацию, которая лишь частично наблюдается в метагеномном функциональном потенциале, включая наблюдения, связанные с заболеванием, для ВЗК. Сообщалось, что многие сигналы, специфичные для ВЗК, либо более выражены, либо обнаруживаются только на уровне РНК. [33] Эти измененные профили экспрессии потенциально являются результатом изменений в кишечной среде у пациентов с ВЗК, которые включают повышенные уровни воспаления, более высокие концентрации кислорода и уменьшенный слизистый слой. [36] Метатранскриптомика имеет преимущество, позволяя исследователям пропустить анализ биохимических продуктов in situ (таких как слизь или кислород) и позволяет оценивать влияние изменений окружающей среды на паттерны микробной экспрессии in vivo для больших популяций людей. Кроме того, ее можно сочетать с продольной выборкой , чтобы связать модуляцию активности с прогрессированием заболевания. Действительно, было показано, что, хотя определенный путь может оставаться стабильным с течением времени на геномном уровне, соответствующая экспрессия меняется в зависимости от тяжести заболевания. [33] Это говорит о том, что микробный дисбиоз влияет на здоровье кишечника посредством изменения транскрипционных программ в стабильном сообществе. Таким образом, метатранскриптомное профилирование становится важным инструментом для понимания механизмов этой взаимосвязи.
Некоторые технические ограничения измерений РНК в кале связаны с тем, что извлеченная РНК может быть деградирована, и в противном случае она по-прежнему будет представлять только те организмы, которые присутствуют в образце кала.
Примеры применяемых методов: Микрочипы: позволяют отслеживать изменения в уровнях экспрессии многих генов параллельно как для хозяина, так и для патогена. Первые подходы с использованием микрочипов показали первый глобальный анализ изменений экспрессии генов у таких патогенов, как Vibrio cholerae , Borrelia burgdorferi , Chlamydia trachomatis , Chlamydia pneumoniae и Salmonella enterica , раскрывая стратегии, которые используются этими микроорганизмами для адаптации к хозяину. Кроме того, микрочипы дают только первое глобальное представление о врожденном иммунном ответе хозяина на PAMP , как о влиянии бактериальной инфекции на экспрессию различных факторов хозяина. В любом случае, обнаружение с помощью микрочипов обоих организмов одновременно может быть проблематичным. Проблемы:
Dual RNA-Seq: эта техника позволяет одновременно изучать транскриптомы как хозяина, так и патогена. Можно отслеживать экспрессию генов в различные временные точки процесса инфекции; таким образом можно изучать изменения в клеточных сетях в обоих организмах, начиная с первоначального контакта до манипуляции хозяином (взаимодействие хозяин-патоген).
Более того, РНК-Seq является важным подходом для идентификации корегулируемых генов, что позволяет организовать геномы патогенов в опероны . Действительно, аннотация генома была сделана для некоторых эукариотических патогенов, таких как Candida albicans , Trypanosoma brucei и Plasmodium falciparum .
Несмотря на возросшую чувствительность и глубину секвенирования, опубликованных исследований РНК-Seq, касающихся реакции клетки-хозяина млекопитающего на инфекцию, по-прежнему мало. [37] [38]