stringtranslate.com

Анализ пути

Ресурсы путей и типы анализа путей с использованием таких баз данных, как KEGG , Reactome и WikiPathways . [1]

Pathway — термин из молекулярной биологии, обозначающий тщательно подобранное схематическое представление хорошо охарактеризованного сегмента молекулярного физиологического механизма, например, метаболического пути, описывающего ферментативный процесс внутри клетки или ткани, или модели сигнального пути, представляющей регуляторный процесс, который, в свою очередь, может активировать метаболический или другой регуляторный процесс ниже по течению. Типичная модель пути начинается с внеклеточной сигнальной молекулы , которая активирует определенный рецептор , тем самым запуская цепочку молекулярных взаимодействий. [2] Путь чаще всего представляется в виде относительно небольшого графа с узлами генов, белков и/или малых молекул, соединенными ребрами известных функциональных связей. В то время как более простой путь может выглядеть как цепь, [3] гораздо более распространены сложные топологии путей с петлями и альтернативными маршрутами. Вычислительный анализ использует специальные форматы представления путей. [4] [5] Однако в простейшей форме путь может быть представлен в виде списка молекул-членов с неопределенным порядком и связями. Такое представление, обычно называемое функциональным набором генов (FGS), может также относиться к другим функционально охарактеризованным группам, таким как семейства белков , термины онтологии генов (GO) и онтологии заболеваний (DO) и т. д. В биоинформатике методы анализа путей могут использоваться для идентификации ключевых генов / белков в ранее известном пути в связи с конкретным экспериментом/патологическим состоянием или построения пути de novo из белков, которые были идентифицированы как ключевые затронутые элементы. Изучая изменения, например, экспрессии генов в пути, можно исследовать его биологическую активность. Однако чаще всего анализ путей относится к методу первоначальной характеристики и интерпретации экспериментального (или патологического) состояния, которое изучалось с помощью инструментов омики или исследования ассоциаций по всему геному . [6] Такие исследования могут идентифицировать длинные списки измененных генов. Визуальный осмотр тогда сложен, и информацию трудно обобщить, поскольку измененные гены сопоставляются с широким спектром путей, процессов и молекулярных функций (с большой долей генов, не имеющих какой-либо аннотации). В таких ситуациях наиболее продуктивным способом исследования списка является выявление обогащения конкретных FGS в нем. Общий подход анализа обогащения заключается в выявлении FGS, члены которых чаще всегоили наиболее сильно изменены в данном состоянии, по сравнению с набором генов, выбранным случайно. Другими словами, обогащение может сопоставить канонические предшествующие знания, структурированные в форме FGS, с состоянием, представленным измененными генами.

Использовать

Данные для анализа путей поступают из высокопроизводительной биологии . Это включает в себя данные высокопроизводительного секвенирования и данные микрочипов . Перед тем, как можно будет выполнить анализ путей, изменение каждого гена должно быть оценено с использованием набора данных омики либо количественно ( анализ дифференциальной экспрессии ), либо качественно (обнаружение соматических точечных мутаций или сопоставление соседних генов с ассоциированным с заболеванием SNP ). Также можно объединить наборы данных из разных исследовательских групп или нескольких платформ омики с помощью метаанализа и кросс-платформенной регуляризации. [7] [8] Кроме того, список, в котором идентификаторы генов сопровождаются атрибутами изменения, подвергается анализу путей. Используя программное обеспечение для анализа путей, исследователи могут определить, какие FGS обогащены измененными экспериментальными генами [9] [10] Например, анализ путей нескольких независимых экспериментов с микрочипами ( метаанализ ) помог обнаружить потенциальные биомаркеры в одном пути, важном для быстрого перехода типа волокна к медленному при мышечной дистрофии Дюшенна . [11] В другом исследовании метаанализ выявил два биомаркера в крови пациентов с болезнью Паркинсона , которые могут быть полезны для мониторинга заболевания. [12] Кандидатные аллели генов, вызывающие болезнь Альцгеймера и старческую деменцию, были впервые обнаружены с помощью общегеномного ассоциативного исследования и в дальнейшем подтверждены с помощью анализа обогащения сети против FGS , состоящего из известных генов болезни Альцгеймера. [13] [14]

Базы данных

Коллекции путей и сети взаимодействия составляют базу знаний , необходимую для анализа путей. Содержание, структура, формат и функциональность путей различаются в разных базах данных, таких как KEGG , [15] WikiPathways или Reactome . [16] Также существуют собственные коллекции путей, используемые, например, инструментами Pathway Studio [17] и Ingenuity Pathway Analysis [18] . Общедоступные онлайн-инструменты могут предоставлять предварительно скомпилированные и готовые к использованию меню путей и сетей из разных открытых источников (например, EviNet).

Методы и программное обеспечение

Программное обеспечение для анализа путей можно найти в виде настольных программ, веб-приложений или пакетов, написанных на таких языках, как R и Python , и которые открыто доступны через проекты BioConductor [19] и GitHub [20] . Методология анализа путей быстро развивается, и классификация все еще остается предметом обсуждения, [21] [22] со следующими основными категориями анализа обогащения путей, применимыми к высокопроизводительным данным: [21]

Анализ избыточной репрезентативности (ORA)

Этот метод измеряет перекрытие между, с одной стороны, набором генов (или белков) в FGS и, с другой стороны, списком наиболее измененных генов, обычно называемых измененными наборами генов (AGS). Типичным примером AGS является список из N лучших дифференциально экспрессируемых генов из анализа РНК-Seq . Основное предположение, лежащее в основе ORA, заключается в том, что биологически значимый путь может быть идентифицирован по избытку генов AGS в нем по сравнению с ожидаемым числом случайно. Целью ORA является выявление таких обогащенных путей, судя по статистической значимости перекрытия между FGS и AGS, определяемой либо соответствующей статистикой, такой как индекс Жаккара , либо статистическим тестом, дающим p-значения ( точный тест Фишера или тест с использованием гипергеометрического распределения ).

Оценка функционального класса (FCS)

Этот метод идентифицирует FGS , рассматривая их относительное положение в полном списке генов, изученных в эксперименте. Поэтому этот полный список должен быть заранее ранжирован по статистике (такой как изменение кратности экспрессии мРНК , t-критерий Стьюдента и т. д.) или p-значению - при отслеживании направления изменения кратности, поскольку p-значения не являются направленными. Таким образом, FCS учитывает каждый ген FGS независимо от его статистической значимости и не требует предварительно скомпилированного AGS . Одним из первых и самых популярных методов, использующих подход FCS, был анализ обогащения набора генов (GSEA). [10]

Анализ топологии пути (PTA)

Подобно FCS , PTA учитывает высокопроизводительные данные для каждого гена FGS . [23] Кроме того, используется конкретная топологическая информация о роли, положении и направлениях взаимодействия генов пути. Для этого требуются дополнительные входные данные из базы данных путей в предварительно указанном формате, например, KEGG Markup Language (KGML). Используя эту информацию, PTA оценивает значимость пути, учитывая, насколько каждое отдельное изменение гена могло повлиять на весь путь. Несколько типов изменений могут использоваться параллельно (соматические вариации числа копий , точечные мутации и т. д.), если они доступны. [21] Набор методов PTA включает анализ воздействия, [24] [25] EnrichNet, [26] GGEA, [27] и TopoGSA. [28]

Анализ обогащения сети (NEA)

Анализ обогащения сети (NEA) был расширением анализа обогащения набора генов в область глобальных генных сетей [29] [30] [31] [32] Основной принцип NEA можно понять в сравнении с ORA , где обогащение FGS в генах AGS определяется тем, сколько генов напрямую разделяют AGS и FGS. В NEA, напротив, глобальная сеть ищет сетевые ребра, которые соединяют любые гены AGS с любыми генами FGS. Поскольку значимость обогащения зависит от высоковариабельных степеней узлов отдельных генов AGS и FGS, ее следует определять с помощью специального статистического теста, который сравнивает наблюдаемое количество сетевых ребер с числом, ожидаемым случайно в том же сетевом контексте. Некоторые ценные свойства NEA заключаются в следующем:

  1. он более устойчив к биологической и технической изменчивости между повторными образцами; [8] [33]
  2. Гены AGS не обязательно могут быть аннотированы как члены пути; [34]
  3. Члены FGS не обязательно должны быть изменены, но все равно учитываются из-за наличия сетевых связей с генами AGS. [35]

Коммерческие решения

Помимо инструментов с открытым исходным кодом, таких как STRING или Cytoscape , ряд компаний продают лицензионные программные продукты для анализа наборов генов. В то время как большинство общедоступных решений используют онлайн- и общедоступные коллекции путей, коммерческие продукты в основном продвигают собственные, фирменные пути и сети. Выбор таких продуктов может быть обусловлен навыками клиентов, финансовыми и временными ресурсами, а также потребностями. [6] Ingenuity , например, поддерживает базу знаний для сравнительного анализа данных об экспрессии генов. [36] Pathways Studio [37] — это коммерческое программное обеспечение, которое позволяет искать биологически значимые факты, анализировать эксперименты и создавать пути. Pathways Studio Viewer [38] — это бесплатный ресурс от той же компании для представления интерактивной коллекции путей и базы данных Pathway Studio. Два коммерческих решения предлагают PTA : iPathwayGuide от Advaita Corporation и MetaCore от Thomson Reuters. [39] Advaita использует рецензируемый метод анализа воздействия [24] [25] , в то время как метод MetaCore не опубликован. [39] Correlation Engine использует алгоритм Running Fisher для обогащения набора генов в своем приложении Pathway Enrichment. [40]

Ограничения

Отсутствие аннотаций

Применение методов анализа путей зависит от аннотаций, найденных в существующих базах данных , таких как членство набора генов в путях, топология путей, присутствие генов в глобальной сети и т. д. Однако эти аннотации далеки от полноты и имеют весьма разную степень достоверности. Кроме того, такая информация обычно является общей, т. е. лишена, например, типа клетки, отсека или контекста развития. Поэтому интерпретация результатов анализа путей для наборов данных омики должна проводиться с осторожностью [22]. Частично проблема может быть решена путем анализа более крупных наборов генов в более крупных, например, больших коллекциях путей или глобальных сетях взаимодействия. [41]

Смотрите также

Ссылки

  1. ^ Мубин С., Хойт К. Т., Гемюнд А., Хофманн-Апитиус М., Фрёлих Х., Доминго-Фернандес Д. (2019). «Влияние выбора базы данных путей на статистический анализ обогащения и предиктивное моделирование». Frontiers in Genetics . 10 : 1203. doi : 10.3389/fgene.2019.01203 . PMC  6883970. PMID  31824580 .
  2. ^ Берг Дж. М., Тимочко Дж. Л., Страйер Л. (2002). Биохимия (5-е изд.). Нью-Йорк: WH Freeman. ISBN 978-0-7167-3051-4.
  3. ^ Ohlrogge J, Browse J (июль 1995). «Биосинтез липидов». The Plant Cell . 7 (7): 957–70. doi : 10.1105 /tpc.7.7.957 . PMC 160893. PMID  7640528. S2CID  219201001. 
  4. ^ "Главная страница - SBML.caltech.edu". sbml.org .
  5. ^ "KGML (язык разметки KEGG)". www.genome.jp .
  6. ^ аб Гарсиа-Кампос, Массачусетс, Эспиналь-Энрикес Дж, Эрнандес-Лемус Э (2015). «Анализ пути: современное состояние». Границы в физиологии . 6 : 383. doi : 10.3389/fphys.2015.00383 . ПМЦ 4681784 . ПМИД  26733877. 
  7. ^ Walsh CJ, Hu P, Batt J, Santos CC (август 2015 г.). «Микрочиповый метаанализ и кросс-платформенная нормализация: интегративная геномика для надежного обнаружения биомаркеров». Microarrays . 4 (3): 389–406. doi : 10.3390/microarrays4030389 . PMC 4996376 . PMID  27600230. 
  8. ^ ab Suo C, Hrydziuszko O, Lee D, Pramana S, Saputra D, Joshi H и др. (август 2015 г.). «Интеграция соматических мутаций, экспрессии и функциональных данных выявляет потенциальные драйверные гены, предсказывающие выживаемость при раке груди». Биоинформатика . 31 (16): 2607–13. doi : 10.1093/bioinformatics/btv164 . PMID  25810432.
  9. ^ Tavazoie S, Hughes JD, Campbell MJ, Cho RJ, Church GM (июль 1999). «Систематическое определение архитектуры генетической сети». Nature Genetics . 22 (3): 281–5. doi :10.1038/10343. PMID  10391217. S2CID  14688842.
  10. ^ ab Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA и др. (октябрь 2005 г.). «Анализ обогащения набора генов: основанный на знаниях подход к интерпретации профилей экспрессии по всему геному». Труды Национальной академии наук Соединенных Штатов Америки . 102 (43): 15545–50. Bibcode : 2005PNAS..10215545S. doi : 10.1073/pnas.0506580102 . PMC 1239896. PMID  16199517 . 
  11. ^ Котельникова Е, Шкроб МА, Пятницкий МА, Ферлини А, Дараселия Н (февраль 2012 г.). "Новый подход к метаанализу наборов данных микрочипов выявляет мишени и биомаркеры лекарственных препаратов, связанных с ремоделированием мышц, при мышечной дистрофии Дюшенна". PLOS Computational Biology . 8 (2): e1002365. Bibcode :2012PLSCB...8E2365K. doi : 10.1371/journal.pcbi.1002365 . PMC 3271016 . PMID  22319435. 
  12. ^ Santiago JA, Potashkin JA (февраль 2015 г.). «Сетевой метаанализ выявляет HNF4A и PTBP1 как продольно динамические биомаркеры болезни Паркинсона». Труды Национальной академии наук Соединенных Штатов Америки . 112 (7): 2257–62. Bibcode : 2015PNAS..112.2257S. doi : 10.1073 /pnas.1423573112 . PMC 4343174. PMID  25646437. 
  13. ^ Reynolds CA, Hong MG, Eriksson UK, Blennow K, Wiklund F, Johansson B, et al. (Май 2010). «Анализ генов липидного пути указывает на связь вариации последовательности вблизи SREBF1/TOM1L2/ATPAF2 с риском деменции». Human Molecular Genetics . 19 (10): 2068–78. doi :10.1093/hmg/ddq079. PMC 2860895 . PMID  20167577. 
  14. ^ Bennet AM, Reynolds CA, Eriksson UK, Hong MG, Blennow K, Gatz M и др. (1 января 2011 г.). «Генетическая ассоциация вариантов последовательности вблизи AGER/NOTCH4 и деменции». Журнал болезни Альцгеймера . 24 (3): 475–84. doi :10.3233/jad-2011-101848. PMC 3477600. PMID  21297263 . 
  15. ^ Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, Kanehisa M (январь 1999 г.). "KEGG: Киотская энциклопедия генов и геномов". Nucleic Acids Research . 27 (1): 29–34. doi :10.1093/nar/27.1.29. PMC 148090. PMID  9847135 . 
  16. ^ Vastrik I, D'Eustachio P, Schmidt E, Joshi-Tope G, Gopinath G, Croft D, et al. (2007). "Reactome: a knowledge base of biologic pathways and processes". Genome Biology . 8 (3): R39. doi : 10.1186/gb-2007-8-3-r39 . PMC 1868929. PMID  17367534 . 
  17. ^ Pathway Studio Пути
  18. ^ Центральный путь
  19. ^ Gentleman RC, Carey VJ, Bates DM, Bolstad B, Dettling M, Dudoit S и др. (2004). «Биопроводник: разработка открытого программного обеспечения для вычислительной биологии и биоинформатики». Genome Biology . 5 (10): R80. doi : 10.1186/gb-2004-5-10-r80 . PMC 545600. PMID  15461798 . 
  20. ^ Dabbish L, Stuart C, Tsay J, Herbsleb J (февраль 2012 г.). «Социальное кодирование в GitHub: прозрачность и сотрудничество в открытом репозитории программного обеспечения». (PDF) . Труды конференции ACM 2012 по компьютерной поддержке совместной работы . Нью-Йорк: Ассоциация вычислительной техники. стр. 1277–1286. doi :10.1145/2145204.21453 (неактивно 1 ноября 2024 г.).{{cite book}}: CS1 maint: DOI неактивен по состоянию на ноябрь 2024 г. ( ссылка )
  21. ^ abc Khatri P, Sirota M, Butte AJ (23 февраля 2012 г.). «Десять лет анализа путей: текущие подходы и нерешенные проблемы». PLOS Computational Biology . 8 (2): e1002375. Bibcode : 2012PLSCB ...8E2375K. doi : 10.1371/journal.pcbi.1002375 . PMC 3285573. PMID  22383865. 
  22. ^ ab Henderson-Maclennan NK, Papp JC, Talbot CC, McCabe ER, Presson AP (2010). «Программное обеспечение для анализа путей: ошибки аннотаций и решения». Molecular Genetics and Metabolism . 101 (2–3): 134–40. doi :10.1016/j.ymgme.2010.06.005. PMC 2950253. PMID  20663702 . 
  23. ^ Эммерт-Штрайб Ф., Демер М. (май 2011 г.). «Сети для системной биологии: концептуальная связь данных и функций». IET Systems Biology . 5 (3): 185–207. doi :10.1049/iet-syb.2010.0025. PMID  21639592.
  24. ^ ab Draghici S, Khatri P, Tarca AL, Amin K, Done A, Voichita C и др. (октябрь 2007 г.). «Системный биологический подход к анализу на уровне путей». Genome Research . 17 (10): 1537–45. doi :10.1101/gr.6202607. PMC 1987343 . PMID  17785539. 
  25. ^ ab Tarca AL, Draghici S, Khatri P, Hassan SS, Mittal P, Kim JS и др. (январь 2009 г.). «Анализ воздействия нового сигнального пути». Биоинформатика . 25 (1): 75–82. doi :10.1093/bioinformatics/btn577. PMC 2732297. PMID  18990722 . 
  26. ^ Glaab E, Baudot A, Krasnogor N, Schneider R, Valencia A (сентябрь 2012 г.). «EnrichNet: сетевой анализ обогащения набора генов». Биоинформатика . 28 (18): i451–i457. doi :10.1093/bioinformatics/bts389. PMC 3436816. PMID  22962466 . 
  27. ^ Geistlinger L, Csaba G, Küffner R, Mulder N, Zimmer R (июль 2011 г.). «От наборов к графикам: к реалистичному анализу обогащения транскриптомных систем». Биоинформатика . 27 (13): i366-73. doi :10.1093/bioinformatics/btr228. PMC 3117393. PMID  21685094 . 
  28. ^ Glaab E, Baudot A, Krasnogor N, Valencia A (май 2010 г.). «TopoGSA: сетевой топологический анализ набора генов». Биоинформатика . 26 (9): 1271–2. doi :10.1093/bioinformatics/btq131. PMC 2859135. PMID  20335277 . 
  29. ^ Shojaie A, Michailidis G (22 мая 2010 г.). "Анализ обогащения сетей в сложных экспериментах". Статистические приложения в генетике и молекулярной биологии . 9 (1): Статья22. doi :10.2202/1544-6115.1483. PMC 2898649. PMID  20597848 . 
  30. ^ Huttenhower C, Haley EM, Hibbs MA, Dumeaux V, Barrett DR, Coller HA и др. (июнь 2009 г.). «Изучение генома человека с помощью функциональных карт». Genome Research . 19 (6): 1093–106. doi : 10.1101/gr.082214.108 . PMC 2694471. PMID  19246570 . 
  31. ^ Алексейенко А, Ли В, Пернемальм М, Геган Дж, Дессен П, Лазар В и др. (сентябрь 2012 г.). «Анализ обогащения сетей: расширение анализа обогащения набора генов на генные сети». BMC Bioinformatics . 13 : 226. doi : 10.1186/1471-2105-13-226 . PMC 3505158 . PMID  22966941. 
  32. ^ Signorelli M, Vinciotti V, Wit EC (сентябрь 2016 г.). "NEAT: эффективный тест анализа обогащения сети". BMC Bioinformatics . 17 (1): 352. arXiv : 1604.01210 . doi : 10.1186/s12859-016-1203-6 . PMC 5011912 . PMID  27597310. S2CID  2274758. 
  33. ^ Jeggari A, Alexeyenko A (март 2017 г.). "NEArender: пакет R для функциональной интерпретации данных 'omics' с помощью анализа обогащения сетей". BMC Bioinformatics . 18 (Suppl 5): 118. doi : 10.1186/s12859-017-1534-y . PMC 5374688 . PMID  28361684. 
  34. ^ Хонг МГ, Алексейенко А, Ламберт ДЖК, Амуйель П, Принс ДЖА (октябрь 2010 г.). «Анализ пути по всему геному указывает на внутриклеточный трансмембранный транспорт белков при болезни Альцгеймера». Журнал генетики человека . 55 (10): 707–9. doi : 10.1038/jhg.2010.92 . PMID  20668461. S2CID  27020289.
  35. ^ Jeggari A, Alekseenko Z, Petrov I, Dias JM, Ericson J, Alexeyenko A (июль 2018 г.). «EviNet: веб-платформа для анализа обогащения сетей с гибким определением наборов генов». Nucleic Acids Research . 46 (W1): W163–W170. doi :10.1093/nar/gky485. PMC 6030852. PMID  29893885 . 
  36. ^ "Ingenuity IPA - Интеграция и понимание сложных омических данных". Ingenuity . 8 апреля 2015 г.
  37. ^ Студия Pathway
  38. ^ Просмотрщик Pathway Studio
  39. ^ ab Mitrea C, Taghavi Z, Bokanizad B, Hanoudi S, Tagett R, Donato M и др. (октябрь 2013 г.). «Методы и подходы к топологическому анализу биологических путей». Frontiers in Physiology . 4 : 278. doi : 10.3389 /fphys.2013.00278 . PMC 3794382. PMID  24133454. 
  40. ^ Kupershmidt I, Su QJ, Grewal A, Sundaresh S, Halperin I, Flynn J и др. (сентябрь 2010 г.). Aziz RK (ред.). "Онтологически-ориентированный метаанализ глобальных коллекций высокопроизводительных общедоступных данных". PLOS ONE . ​​5 (9): e13066. Bibcode :2010PLoSO...513066K. doi : 10.1371/journal.pone.0013066 . PMC 2947508 . PMID  20927376. 
  41. ^ Франко М., Джеггари А., Пеже С., Беттгер Ф., Селиванова Г., Алексеенко А. (февраль 2019 г.). «Прогнозирование ответа на противораковые препараты становится надежным с помощью сетевой интеграции молекулярных данных». Scientific Reports . 9 (1): 2379. Bibcode :2019NatSR...9.2379F. doi :10.1038/s41598-019-39019-2. PMC 6382934 . PMID  30787419.