В молекулярной филогенетике отношения между особями определяются с использованием черт характера, таких как ДНК , РНК или белок , которые могут быть получены с использованием различных технологий секвенирования . Высокопроизводительное секвенирование следующего поколения стало популярным методом в транскриптомике , которое представляет собой моментальный снимок экспрессии генов. У эукариот создание филогенетических выводов с использованием РНК осложняется альтернативным сплайсингом , который производит несколько транскриптов из одного гена . Таким образом, различные подходы могут быть использованы для улучшения филогенетического вывода с использованием транскриптомных данных , полученных с помощью РНК-Seq и обработанных с использованием вычислительной филогенетики .
Существует несколько технологий транскриптомики, используемых для сбора информации о последовательностях транскриптомов . Однако наиболее широко используемой является РНК-Seq .
Считывание РНК можно осуществить с помощью различных методов секвенирования РНК.
Существует ряд общедоступных баз данных , содержащих свободно доступные данные РНК-Seq.
Данные RNA-Seq могут быть напрямую собраны в транскрипты с помощью сборки последовательностей . Часто различают две основные категории сборки последовательностей :
Оба метода пытаются создать биологически репрезентативные конструкции уровня изоформ из данных РНК-секвенирования и, как правило, пытаются связать изоформы с конструкцией уровня генов. Однако правильная идентификация конструкций уровня генов может быть осложнена недавними дупликациями , паралогами , альтернативным сплайсингом или слияниями генов . Эти осложнения могут также вызвать проблемы в нисходящем направлении во время вывода ортологов. При выборе или создании данных о последовательностях также важно учитывать тип ткани, стадию развития и условия окружающей среды организмов. Поскольку транскриптом представляет собой моментальный снимок экспрессии генов , незначительные изменения этих условий могут существенно повлиять на то, какие транскрипты будут экспрессироваться. Это может пагубно повлиять на обнаружение ортологов в нисходящем направлении. [1]
РНК также может быть получена из общедоступных баз данных, таких как GenBank , RefSeq , 1000 Plants (1KP) и 1KITE. Публичные базы данных потенциально предлагают курируемые последовательности, которые могут улучшить качество вывода и избежать вычислительных издержек, связанных со сборкой последовательностей .
Вывод ортологии или паралогии требует оценки гомологии последовательностей , обычно через выравнивание последовательностей . Филогенетический анализ и выравнивание последовательностей часто рассматриваются совместно, поскольку филогенетический анализ с использованием ДНК или РНК требует выравнивания последовательностей, а сами выравнивания часто представляют собой некоторую гипотезу гомологии . Поскольку правильная идентификация ортологов имеет решающее значение для филогенетического анализа, существует множество методов, позволяющих вывести ортологов и паралогов . [2]
Эти методы обычно различаются как алгоритмы на основе графов или алгоритмы на основе деревьев. Некоторые примеры методов на основе графов включают InParanoid, [3] MultiParanoid, [4] OrthoMCL, [5] HomoloGene [6] и OMA. [7] Алгоритмы на основе деревьев включают такие программы, как OrthologID или RIO. [8] [2]
Различные методы BLAST часто используются для обнаружения ортологов между видами как часть графовых алгоритмов, таких как MegaBLAST, BLASTALL или других форм BLAST all-v-all, и могут быть нуклеотидными или белковыми выравниваниями . [9] [10] RevTrans [11] даже будет использовать белковые данные для информирования о выравниваниях ДНК, что может быть полезно для разрешения более отдаленных филогенетических отношений. Эти подходы часто предполагают, что лучшие взаимные попадания, проходящие некоторые пороговые метрики, такие как идентичность, E-value или процентное выравнивание, представляют ортологов и могут быть спутаны неполной сортировкой по линиям . [12] [13]
Важно отметить, что ортологические отношения в общедоступных базах данных обычно представляют собой ортологию на уровне генов и не предоставляют информацию о сохраненных альтернативных вариантах сплайсинга .
Базы данных, которые содержат и/или обнаруживают ортологичные отношения, включают:
Поскольку эукариотическая транскрипция является сложным процессом, посредством которого из одного гена могут быть получены множественные транскрипты посредством альтернативного сплайсинга с переменной экспрессией , использование РНК сложнее, чем ДНК. Однако, транскриптомы дешевле для секвенирования, чем полные геномы, и могут быть получены без использования уже существующего референсного генома . [1]
Нередко приходится переводить последовательность РНК в последовательность белка при использовании транскриптомных данных, особенно при анализе сильно расходящихся таксонов. Это интуитивный шаг, поскольку многие (но не все) транскрипты, как ожидается, кодируют изоформы белка . Потенциальные преимущества включают в себя снижение мутационных смещений и сокращение числа символов, что может ускорить анализ. Однако это сокращение числа символов также может привести к потере потенциально информативных символов. [1]
Существует ряд инструментов для множественного выравнивания последовательностей . Все они обладают своими собственными сильными и слабыми сторонами и могут быть специализированы для различных типов последовательностей (ДНК, РНК или белок). Таким образом, выравниватель, учитывающий сплайс, может быть идеальным для выравнивания последовательностей РНК, тогда как выравниватель, учитывающий структуру белка или скорости замены остатков , может быть предпочтительнее для данных транслированной последовательности РНК.
Использование РНК для филогенетического анализа имеет свой уникальный набор сильных и слабых сторон.