KEGG ( Киотская энциклопедия генов и геномов ) — это коллекция баз данных, посвященных геномам , биологическим путям , болезням , лекарствам и химическим веществам . KEGG используется для исследований и образования в области биоинформатики , включая анализ данных в геномике , метагеномике , метаболомике и других исследованиях в области омики , моделирование и имитацию в системной биологии , а также трансляционные исследования в области разработки лекарств .
Проект базы данных KEGG был инициирован в 1995 году Минору Канехисой , профессором Института химических исследований Киотского университета , в рамках тогдашней Японской программы по геному человека . [1] [2] Предвидя необходимость в компьютеризированном ресурсе, который может быть использован для биологической интерпретации данных последовательности генома , он начал разработку базы данных KEGG PATHWAY. Это коллекция вручную нарисованных карт путей KEGG, представляющих экспериментальные знания о метаболизме и различных других функциях клетки и организма . Каждая карта путей содержит сеть молекулярных взаимодействий и реакций и предназначена для связывания генов в геноме с продуктами генов (в основном белками ) в пути. Это позволило провести анализ, называемый картированием путей KEGG, при котором содержание генов в геноме сравнивается с базой данных KEGG PATHWAY для изучения того, какие пути и связанные с ними функции, вероятно, закодированы в геноме.
По словам разработчиков, KEGG — это «компьютерное представление» биологической системы . [3] Он объединяет строительные блоки и схемы соединений системы, а именно генетические строительные блоки генов и белков, химические строительные блоки малых молекул и реакций, а также схемы соединений молекулярных взаимодействий и сетей реакций. Эта концепция реализована в следующих базах данных KEGG, которые подразделяются на системную, геномную, химическую и медицинскую информацию. [4]
База данных KEGG PATHWAY, база данных схем электропроводки, является ядром ресурса KEGG. Это коллекция карт путей, объединяющих множество сущностей, включая гены, белки, РНК, химические соединения, гликаны и химические реакции, а также гены болезней и мишени лекарств, которые хранятся в виде отдельных записей в других базах данных KEGG. Карты путей классифицируются по следующим разделам:
Раздел метаболизма содержит эстетически нарисованные глобальные карты, показывающие общую картину метаболизма, в дополнение к обычным картам метаболических путей. Глобальные карты с низким разрешением можно использовать, например, для сравнения метаболических возможностей различных организмов в исследованиях геномики и различных образцов окружающей среды в исследованиях метагеномики. Напротив, модули KEGG в базе данных KEGG MODULE представляют собой локализованные схемы электропроводки с более высоким разрешением, представляющие более узкие функциональные единицы в карте путей, такие как подпути, сохраненные среди определенных групп организмов и молекулярных комплексов. Модули KEGG определяются как характерные наборы генов, которые могут быть связаны с определенными метаболическими возможностями и другими фенотипическими признаками, так что их можно использовать для автоматической интерпретации данных генома и метагенома.
Другая база данных, дополняющая KEGG PATHWAY, — это база данных KEGG BRITE. Это онтологическая база данных, содержащая иерархические классификации различных сущностей, включая гены, белки, организмы, болезни, лекарства и химические соединения. В то время как KEGG PATHWAY ограничивается молекулярными взаимодействиями и реакциями этих сущностей, KEGG BRITE включает в себя множество различных типов отношений.
Через несколько месяцев после начала проекта KEGG в 1995 году был опубликован первый отчет о полностью секвенированном бактериальном геноме. [5] С тех пор все опубликованные полные геномы аккумулируются в KEGG как для эукариот , так и для прокариот . База данных KEGG GENES содержит информацию на уровне генов/белков, а база данных KEGG GENOME содержит информацию на уровне организмов для этих геномов. База данных KEGG GENES состоит из наборов генов для полных геномов, и гены в каждом наборе снабжены аннотациями в форме установления соответствий схемам проводки карт путей KEGG, модулям KEGG и иерархиям BRITE.
Эти соответствия создаются с использованием концепции ортологов . Карты путей KEGG составляются на основе экспериментальных данных для конкретных организмов, но они разработаны так, чтобы их можно было применять и к другим организмам, поскольку разные организмы, такие как человек и мышь, часто имеют идентичные пути, состоящие из функционально идентичных генов, называемых ортологичными генами или ортологами. Все гены в базе данных KEGG GENES группируются в такие ортологи в базе данных KEGG ORTHOLOGY (KO). Поскольку узлам (продуктам генов) карт путей KEGG, а также модулям KEGG и иерархиям BRITE присваиваются идентификаторы KO, соответствия устанавливаются после того, как гены в геноме аннотируются идентификаторами KO с помощью процедуры аннотации генома в KEGG. [4]
Карты метаболических путей KEGG составлены для представления двойных аспектов метаболической сети: геномной сети того, как геном-кодируемые ферменты связаны для катализа последовательных реакций, и химической сети того, как химические структуры субстратов и продуктов преобразуются этими реакциями. [6] Набор генов ферментов в геноме будет идентифицировать сети взаимоотношений ферментов при наложении на карты путей KEGG, которые, в свою очередь, характеризуют сети трансформации химической структуры, позволяя интерпретировать биосинтетический и биодеградационный потенциалы организма. В качестве альтернативы набор метаболитов , идентифицированных в метаболоме, приведет к пониманию ферментативных путей и задействованных генов ферментов.
Базы данных в категории химической информации, которые в совокупности называются KEGG LIGAND, организованы путем сбора знаний о химической сети. В начале проекта KEGG KEGG LIGAND состоял из трех баз данных: KEGG COMPOUND для химических соединений, KEGG REACTION для химических реакций и KEGG ENZYME для реакций в номенклатуре ферментов. [7] В настоящее время существуют дополнительные базы данных: KEGG GLYCAN для гликанов [8] и две вспомогательные базы данных реакций, называемые RPAIR (выравнивания пар реагентов) и RCLASS (класс реакций). [9] KEGG COMPOUND также был расширен, чтобы содержать различные соединения, такие как ксенобиотики , в дополнение к метаболитам.
В KEGG заболевания рассматриваются как возмущенные состояния биологической системы, вызванные возмущениями генетических факторов и факторов окружающей среды, а лекарства рассматриваются как различные типы возмущений. [10] База данных KEGG PATHWAY включает не только нормальные состояния, но и возмущенные состояния биологических систем. Однако карты путей болезней не могут быть составлены для большинства болезней, поскольку молекулярные механизмы не до конца поняты. Альтернативный подход принят в базе данных KEGG DISEASE, которая просто каталогизирует известные генетические факторы и факторы окружающей среды болезней. Эти каталоги могут в конечном итоге привести к более полным схемам соединений болезней.
База данных KEGG DRUG содержит активные ингредиенты одобренных препаратов в Японии, США и Европе. Они различаются по химической структуре и/или химическим компонентам и связаны с целевыми молекулами, метаболизирующими ферментами и другой информацией о сетях молекулярных взаимодействий в картах путей KEGG и иерархиях BRITE. Это позволяет проводить комплексный анализ взаимодействия препаратов с геномной информацией. Необработанные лекарственные препараты и другие вещества, связанные со здоровьем, которые не входят в категорию одобренных препаратов, хранятся в базе данных KEGG ENVIRON. Базы данных в категории информации о здоровье совместно называются KEGG MEDICUS, которая также включает в себя листки-вкладыши всех продаваемых в Японии препаратов.
В июле 2011 года KEGG представил модель подписки для загрузки FTP из-за значительного сокращения государственного финансирования. KEGG по-прежнему доступен бесплатно через свой веб-сайт, но модель подписки вызвала дискуссии об устойчивости баз данных биоинформатики. [11] [12]