Коллекция баз данных BioCyc представляет собой набор баз данных путей/геномов, специфичных для организмов (PGDB), которые содержат справочную информацию о геномах и метаболических путях для тысяч организмов. [1] По состоянию на июль 2023 года в BioCyc насчитывалось более 20 040 баз данных. [2] SRI International , [3] базирующаяся в Менло-Парке, Калифорния, поддерживает семейство баз данных BioCyc.
На основе ручного курирования семейство баз данных BioCyc делится на 3 уровня:
Уровень 1: Базы данных, которые прошли по крайней мере один год ручного курирования на основе литературы. В настоящее время в уровне 1 есть семь баз данных. Из семи, MetaCyc является основной базой данных, которая содержит почти 2500 метаболических путей многих организмов. [1] [4] Другая важная база данных уровня 1 — HumanCyc, которая содержит около 300 метаболических путей, обнаруженных у людей. [5] Остальные пять баз данных включают EcoCyc ( E. coli ), [6] AraCyc ( Arabidopsis thaliana ), YeastCyc ( Saccharomyces cerevisiae ), LeishCyc ( Leishmania major Friedlin ) и TrypanoCyc ( Trypanosoma brucei ).
Уровень 2: Базы данных, которые были предсказаны вычислительным путем, но получили умеренное ручное курирование (большинство с курированием в течение 1–4 месяцев). Базы данных уровня 2 доступны для ручного курирования учеными, которые интересуются любым конкретным организмом. Базы данных уровня 2 в настоящее время содержат 43 различные базы данных организмов.
Уровень 3: Базы данных, которые были вычислительно предсказаны PathoLogic и не подвергались ручному курированию. Как и в случае с уровнем 2, базы данных уровня 3 также доступны для курирования заинтересованными учеными.
Онтологический ресурс содержит множество программных инструментов для поиска, визуализации, сравнения и анализа информации о геноме и путях. Он включает браузер генома и браузеры для метаболических и регуляторных сетей . Веб-сайт также включает инструменты для рисования крупномасштабных («омических») наборов данных на метаболических и регуляторных сетях и на геноме.
Поскольку семейство баз данных BioCyc включает в себя длинный список баз данных, специфичных для организмов, а также данные на различных системных уровнях в живой системе, использование в исследованиях было в широком диапазоне контекстов. Здесь выделены два исследования, которые показывают два различных варианта использования, одно в масштабе генома, а другое для идентификации определенных SNP ( однонуклеотидных полиморфизмов ) в пределах генома.
AlgaGEM
AlgaGEM — это модель метаболической сети в масштабе генома для компартментализированной клетки водоросли, разработанная Гомесом де Оливейрой Даль'Молином и др. [7] на основе генома Chlamydomonas reinhardtii . Она содержит 866 уникальных ORF, 1862 метаболита, 2499 записей ген-фермент-реакция-ассоциация и 1725 уникальных реакций. Одной из баз данных Pathway, используемых для реконструкции, является MetaCyc.
SNP
Исследование Шимула Чоудхури и др. [8] показало, что связь между материнскими SNP и метаболитами, участвующими в путях гомоцистеина, фолата и транссульфурации, различается в случаях врожденных пороков сердца (ВПС) по сравнению с контрольной группой. Исследование использовало HumanCyc для выбора генов-кандидатов и SNP.