stringtranslate.com

Филогенетический вывод с использованием транскриптомных данных

В молекулярной филогенетике отношения между особями определяются с использованием черт характера, таких как ДНК , РНК или белок , которые могут быть получены с использованием различных технологий секвенирования . Высокопроизводительное секвенирование следующего поколения стало популярным методом в транскриптомике , которое представляет собой моментальный снимок экспрессии генов. У эукариот создание филогенетических выводов с использованием РНК осложняется альтернативным сплайсингом , который производит несколько транскриптов из одного гена . Таким образом, различные подходы могут быть использованы для улучшения филогенетического вывода с использованием транскриптомных данных , полученных с помощью РНК-Seq и обработанных с использованием вычислительной филогенетики .

Получение последовательности

Существует несколько технологий транскриптомики, используемых для сбора информации о последовательностях транскриптомов . Однако наиболее широко используемой является РНК-Seq .

РНК-Seq

Считывание РНК можно осуществить с помощью различных методов секвенирования РНК.

Публичные базы данных

Существует ряд общедоступных баз данных , содержащих свободно доступные данные РНК-Seq.

Сборка

Последовательность сборки

Данные RNA-Seq могут быть напрямую собраны в транскрипты с помощью сборки последовательностей . Часто различают две основные категории сборки последовательностей :

  1. сборка транскриптома de novo — особенно важна, когда для данного вида недоступен референтный геном .
  2. Сборка, управляемая геномом (иногда картирование или сборка, управляемая референсом) — способно использовать уже существующую референсную информацию для управления сборкой транскриптов.

Оба метода пытаются создать биологически репрезентативные конструкции уровня изоформ из данных РНК-секвенирования и, как правило, пытаются связать изоформы с конструкцией уровня генов. Однако правильная идентификация конструкций уровня генов может быть осложнена недавними дупликациями , паралогами , альтернативным сплайсингом или слияниями генов . Эти осложнения могут также вызвать проблемы в нисходящем направлении во время вывода ортологов. При выборе или создании данных о последовательностях также важно учитывать тип ткани, стадию развития и условия окружающей среды организмов. Поскольку транскриптом представляет собой моментальный снимок экспрессии генов , незначительные изменения этих условий могут существенно повлиять на то, какие транскрипты будут экспрессироваться. Это может пагубно повлиять на обнаружение ортологов в нисходящем направлении. [1]

Публичные базы данных

РНК также может быть получена из общедоступных баз данных, таких как GenBank , RefSeq , 1000 Plants (1KP) и 1KITE. Публичные базы данных потенциально предлагают курируемые последовательности, которые могут улучшить качество вывода и избежать вычислительных издержек, связанных со сборкой последовательностей .

Вывод ортологии/паралогии пар генов

Подходы

Вывод ортологии или паралогии требует оценки гомологии последовательностей , обычно через выравнивание последовательностей . Филогенетический анализ и выравнивание последовательностей часто рассматриваются совместно, поскольку филогенетический анализ с использованием ДНК или РНК требует выравнивания последовательностей, а сами выравнивания часто представляют собой некоторую гипотезу гомологии . Поскольку правильная идентификация ортологов имеет решающее значение для филогенетического анализа, существует множество методов, позволяющих вывести ортологов и паралогов . [2]

Эти методы обычно различаются как алгоритмы на основе графов или алгоритмы на основе деревьев. Некоторые примеры методов на основе графов включают InParanoid, [3] MultiParanoid, [4] OrthoMCL, [5] HomoloGene [6] и OMA. [7] Алгоритмы на основе деревьев включают такие программы, как OrthologID или RIO. [8] [2]

Различные методы BLAST часто используются для обнаружения ортологов между видами как часть графовых алгоритмов, таких как MegaBLAST, BLASTALL или других форм BLAST all-v-all, и могут быть нуклеотидными или белковыми выравниваниями . [9] [10] RevTrans [11] даже будет использовать белковые данные для информирования о выравниваниях ДНК, что может быть полезно для разрешения более отдаленных филогенетических отношений. Эти подходы часто предполагают, что лучшие взаимные попадания, проходящие некоторые пороговые метрики, такие как идентичность, E-value или процентное выравнивание, представляют ортологов и могут быть спутаны неполной сортировкой по линиям . [12] [13]

Базы данных и инструменты

Важно отметить, что ортологические отношения в общедоступных базах данных обычно представляют собой ортологию на уровне генов и не предоставляют информацию о сохраненных альтернативных вариантах сплайсинга .

Базы данных, которые содержат и/или обнаруживают ортологичные отношения, включают:

Множественное выравнивание последовательностей

Поскольку эукариотическая транскрипция является сложным процессом, посредством которого из одного гена могут быть получены множественные транскрипты посредством альтернативного сплайсинга с переменной экспрессией , использование РНК сложнее, чем ДНК. Однако, транскриптомы дешевле для секвенирования, чем полные геномы, и могут быть получены без использования уже существующего референсного генома . [1]

Нередко приходится переводить последовательность РНК в последовательность белка при использовании транскриптомных данных, особенно при анализе сильно расходящихся таксонов. Это интуитивный шаг, поскольку многие (но не все) транскрипты, как ожидается, кодируют изоформы белка . Потенциальные преимущества включают в себя снижение мутационных смещений и сокращение числа символов, что может ускорить анализ. Однако это сокращение числа символов также может привести к потере потенциально информативных символов. [1]

Существует ряд инструментов для множественного выравнивания последовательностей . Все они обладают своими собственными сильными и слабыми сторонами и могут быть специализированы для различных типов последовательностей (ДНК, РНК или белок). Таким образом, выравниватель, учитывающий сплайс, может быть идеальным для выравнивания последовательностей РНК, тогда как выравниватель, учитывающий структуру белка или скорости замены остатков , может быть предпочтительнее для данных транслированной последовательности РНК.

Возможности и ограничения

Использование РНК для филогенетического анализа имеет свой уникальный набор сильных и слабых сторон.

Преимущества

Недостатки

Смотрите также

Ссылки

  1. ^ abc Hörandl, Elvira; Appelhans, Mark (2015). Секвенирование следующего поколения в систематике растений . Koeltz Scientific Books. ISBN 9783874294928.
  2. ^ ab Salichos, Leonidas; Rokas, Antonis; Fairhead, Cecile (13 апреля 2011 г.). «Оценка алгоритмов предсказания ортологов в кладе дрожжевой модели». PLOS ONE . ​​6 (4): e18755. doi : 10.1371/journal.pone.0018755 . PMC 3076445 . PMID  21533202. 
  3. ^ Остлунд, Г.; Шмитт, Т.; Форслунд, К.; Костлер, Т.; Мессина, Д. Н.; Рупра, С.; Фрингс, О.; Зоннхаммер, Э. Л. (5 ноября 2009 г.). «InParanoid 7: новые алгоритмы и инструменты для анализа ортологии эукариот». Nucleic Acids Research . 38 (База данных): D196–D203. doi :10.1093/nar/gkp931. PMC 2808972 . PMID  19892828. 
  4. ^ Алексейенко, А.; Тамас, И.; Лю, Г.; Зоннхаммер, ЭЛЛ (27 июля 2006 г.). «Автоматическая кластеризация ортологов и инпаралогов, общих для нескольких протеомов». Биоинформатика . 22 (14): e9–e15. doi : 10.1093/bioinformatics/btl213 . PMID  16873526.
  5. ^ Ли, Л. (1 сентября 2003 г.). «OrthoMCL: Идентификация групп ортологов для эукариотических геномов». Genome Research . 13 (9): 2178–2189. doi :10.1101/gr.1224503. PMC 403725. PMID  12952885 . 
  6. ^ Сэйерс, EW; Барретт, Т.; Бенсон, Д.А.; Болтон, Э.; Брайант, Ш.; Канезе, К.; Четвернин В.; Церковь, DM; ДиКуччио, М.; Федерхен, С.; Феоло, М.; Фингерман, И.М.; Гир, Л.Ю.; Хелмберг, В.; Капустин Ю.; Ландсман, Д.; Липман, диджей; Лу, З.; Мэдден, TL; Мадей, Т.; Маглотт, Др. ; Марчлер-Бауэр, А.; Миллер, В.; Мизрахи, И.; Остелл, Дж.; Панченко А.; Фан, Л.; Прюитт, К.Д.; Шулер, Грузия; Секейра, Э.; Шерри, Сент-Луис; Шамуэй, М.; Сироткин К.; Слотта, Д.; Суворов А.; Старченко Г.; Татусова, ТА; Вагнер, Л.; Ванг, И.; Вилбур, В.Дж.; Ященко, Э.; Йе, Дж. (21 ноября 2010 г.). "Ресурсы базы данных Национального центра биотехнологической информации". Исследования нуклеиновых кислот . 39 (База данных): D38–D51. doi :10.1093/nar/gkq1172. PMC 3013733. PMID  21097890 . 
  7. ^ Altenhoff, AM; kunca, N.; Glover, N.; Train, C.-M.; Sueki, A.; Pili ota, I.; Gori, K.; Tomiczek, B.; Muller, S.; Redestig, H.; Gonnet, GH; Dessimoz, C. (15 ноября 2014 г.). «База данных ортологий OMA в 2015 г.: прогнозы функций, лучшая поддержка растений, вид синтении и другие улучшения». Nucleic Acids Research . 43 (D1): D240–D249. doi : 10.1093/nar/gku1158 . PMC 4383958. PMID  25399418 . 
  8. ^ Змасек, Кристиан М.; Эдди, Шон Р. (2002). «RIO: Анализ протеомов с помощью автоматизированной филогеномики с использованием повторной выборки вывода ортологов». BMC Bioinformatics . 3 (1): 14. doi : 10.1186/1471-2105-3-14 . PMC 116988. PMID  12028595. 
  9. ^ Баркер, М.С.; Фогель, Х.; Шранц, М.Э. (5 октября 2009 г.). «Палеополиплоидия у капустных: анализ транскриптома клеомы проливает свет на историю дупликаций генома у арабидопсиса и других капустных». Геномная биология и эволюция . 1 : 391–399. doi : 10.1093/gbe/evp040 . PMC 2817432. PMID  20333207 . 
  10. ^ Ян, Сюй; Чэн, Юй-Фу; Дэн, Цао; Ма, Янь; Ван, Чжи-Вэнь; Чэнь, Сюэ-Хао; Сюэ, Линь-Бао (2014). «Сравнительный транскриптомный анализ баклажана (Solanum melongena L.) и индейки (Solanum torvum Sw.): филогеномика и анализ устойчивости к болезням». BMC Genomics . 15 (1): 412. doi : 10.1186/1471-2164-15-412 . PMC 4070557 . PMID  24885385. 
  11. ^ Wernersson, R. (1 июля 2003 г.). «RevTrans: множественное выравнивание кодирующей ДНК из выровненных аминокислотных последовательностей». Nucleic Acids Research . 31 (13): 3537–3539. doi : 10.1093 /nar/gkg609 . PMC 169015. PMID  12824361. 
  12. ^ Moreno-Hagelsieb, G.; Latimer, K. (26 ноября 2007 г.). «Выбор опций BLAST для лучшего обнаружения ортологов как обратных лучших совпадений». Биоинформатика . 24 (3): 319–324. doi : 10.1093/bioinformatics/btm585 . PMID  18042555.
  13. ^ Кастильо-Рамирес, Сантьяго; Гонсалес, Виктор (2008). «Факторы, влияющие на согласованность между ортологичными генными деревьями и видовым деревом у бактерий». BMC Evolutionary Biology . 8 (1): 300. doi : 10.1186/1471-2148-8-300 . PMC 2614993 . PMID  18973688. 
  14. ^ Вэнь, Цзюнь; Сюн, Чжицян; Не, Цзэ-Лун; Мао, Ликай; Чжу, Ябинг; Кань, Сянь-Чжао; Икерт-Бонд, Стефани М.; Геррат, Джин; Циммер, Элизабет А.; Фан, Сяо-Дун; Кандела, Гектор (17 сентября 2013 г.). «Транскриптомные последовательности выявляют глубокие связи семейства виноградных». PLOS ONE . 8 (9): e74394. doi : 10.1371/journal.pone.0074394 . PMC 3775763. PMID  24069307 . 

Внешние ссылки