KEGG ( Киотская энциклопедия генов и геномов ) представляет собой собрание баз данных, посвященных геномам , биологическим путям , болезням , лекарствам и химическим веществам . KEGG используется для исследований и обучения в области биоинформатики , включая анализ данных в области геномики , метагеномики , метаболомики и других омических исследований, моделирования и симуляции в системной биологии , а также трансляционных исследований при разработке лекарств .
Проект базы данных KEGG был инициирован в 1995 году Минору Канехисой , профессором Института химических исследований Киотского университета , в рамках действующей тогда японской программы генома человека . [1] [2] Предвидя потребность в компьютеризированном ресурсе, который можно было бы использовать для биологической интерпретации данных о последовательностях генома , он начал разработку базы данных KEGG PATHWAY. Это коллекция нарисованных вручную карт путей KEGG, отражающих экспериментальные знания о метаболизме и различных других функциях клетки и организма . Каждая карта путей содержит сеть молекулярных взаимодействий и реакций и предназначена для связи генов в геноме с генными продуктами (в основном белками ) на этом пути. Это позволило провести анализ под названием «Картирование путей KEGG», в ходе которого содержание генов в геноме сравнивается с базой данных KEGG PATHWAY, чтобы определить, какие пути и связанные с ними функции могут быть закодированы в геноме.
По словам разработчиков, KEGG — это «компьютерное представление» биологической системы . [3] Он объединяет строительные блоки и схемы соединений системы, а точнее, генетические строительные блоки генов и белков, химические строительные блоки малых молекул и реакций, а также схемы соединений молекулярных взаимодействий и реакционных сетей. Эта концепция реализована в следующих базах данных KEGG, которые разделены на системную, геномную, химическую и медицинскую информацию. [4]
База данных KEGG PATHWAY, база данных электрических схем, является ядром ресурса KEGG. Это коллекция карт путей, объединяющая множество объектов, включая гены, белки, РНК, химические соединения, гликаны и химические реакции, а также гены болезней и мишени лекарств, которые хранятся в виде отдельных записей в других базах данных KEGG. Карты маршрутов разделены на следующие разделы:
В разделе «Метаболизм» помимо обычных карт метаболических путей представлены эстетически нарисованные глобальные карты, показывающие общую картину обмена веществ. Глобальные карты низкого разрешения можно использовать, например, для сравнения метаболических способностей различных организмов в геномных исследованиях и различных образцов окружающей среды в метагеномных исследованиях. Напротив, модули KEGG в базе данных KEGG MODULE представляют собой локализованные схемы соединений с более высоким разрешением, представляющие более узкие функциональные единицы в карте путей, такие как подпути, консервативные среди определенных групп организмов и молекулярных комплексов. Модули KEGG определяются как характерные наборы генов, которые можно связать с конкретными метаболическими способностями и другими фенотипическими особенностями, чтобы их можно было использовать для автоматической интерпретации данных генома и метагенома.
Еще одна база данных, дополняющая KEGG PATHWAY, — это база данных KEGG BRITE. Это база данных онтологий , содержащая иерархические классификации различных объектов, включая гены, белки, организмы, болезни, лекарства и химические соединения. В то время как KEGG PATHWAY ограничивается молекулярными взаимодействиями и реакциями этих объектов, KEGG BRITE включает в себя множество различных типов отношений.
Через несколько месяцев после начала проекта KEGG в 1995 году был опубликован первый отчет о полностью секвенированном бактериальном геноме. [5] С тех пор все опубликованные полные геномы аккумулируются в KEGG как эукариотов , так и прокариотов . База данных KEGG GENES содержит информацию на уровне генов/белков, а база данных KEGG GENOME содержит информацию об этих геномах на уровне организма. База данных KEGG GENES состоит из наборов генов для полных геномов, и генам в каждом наборе даны аннотации в форме установления соответствий схемам соединений карт путей KEGG, модулей KEGG и иерархий BRITE.
Эти соответствия производятся с использованием концепции ортологов . Карты путей KEGG составлены на основе экспериментальных данных на конкретных организмах, но они предназначены для применимости и к другим организмам, поскольку разные организмы, такие как человек и мышь, часто имеют одинаковые пути, состоящие из функционально идентичных генов, называемых ортологичными генами или ортологи. Все гены в базе данных KEGG GENES группируются в такие ортологи в базе данных KEGG ORTHOLOGY (KO). Поскольку узлам (генным продуктам) карт путей KEGG, а также модулям KEGG и иерархиям BRITE присваиваются идентификаторы KO, соответствия устанавливаются после того, как гены в геноме аннотируются идентификаторами KO с помощью процедуры аннотации генома в KEGG. [4]
Карты метаболических путей KEGG составлены так, чтобы представить двойные аспекты метаболической сети: геномную сеть того, как закодированные в геноме ферменты соединяются, чтобы катализировать последовательные реакции, и химическую сеть того, как химические структуры субстратов и продуктов трансформируются этими реакциями. [6] Набор генов ферментов в геноме будет идентифицировать сети взаимоотношений ферментов при наложении на карты путей KEGG, которые, в свою очередь, характеризуют сети трансформации химической структуры, позволяя интерпретировать потенциалы биосинтеза и биодеградации организма. Альтернативно, набор метаболитов , идентифицированных в метаболоме, приведет к пониманию ферментативных путей и задействованных ферментных генов.
Базы данных в категории химической информации, которые вместе называются KEGG LIGAND, организованы путем сбора знаний о химической сети. В начале проекта KEGG KEGG LIGAND состоял из трех баз данных: KEGG COMPOUND для химических соединений, KEGG REACTION для химических реакций и KEGG ENZYME для реакций по номенклатуре ферментов. [7] В настоящее время существуют дополнительные базы данных: KEGG GLYCAN для гликанов [8] и две вспомогательные базы данных реакций, называемые RPAIR (выравнивание пар реагентов) и RCLASS (класс реакции). [9] СОЕДИНЕНИЕ КЕГО также было расширено и теперь содержит различные соединения, такие как ксенобиотики , в дополнение к метаболитам.
В KEGG болезни рассматриваются как нарушенные состояния биологической системы, вызванные возмущающими факторами генетических факторов и факторов окружающей среды, а лекарства рассматриваются как различные типы возмущающих факторов. [10] База данных KEGG PATHWAY включает не только нормальные, но и нарушенные состояния биологических систем. Однако для большинства заболеваний невозможно составить карты путей развития заболеваний, поскольку молекулярные механизмы недостаточно изучены. Альтернативный подход используется в базе данных KEGG DISEASE, которая просто каталогизирует известные генетические факторы и факторы окружающей среды заболеваний. Эти каталоги могут в конечном итоге привести к созданию более полных электрических схем заболеваний.
База данных KEGG DRUG содержит активные ингредиенты одобренных препаратов в Японии, США и Европе. Они различаются химическими структурами и/или химическими компонентами и связаны с молекулами- мишенями , метаболизирующими ферментами и другой информацией о сети молекулярных взаимодействий в картах путей KEGG и иерархиях BRITE. Это позволяет проводить комплексный анализ взаимодействия лекарств с геномной информацией. Необработанные лекарственные средства и другие вещества, полезные для здоровья, не входящие в категорию одобренных лекарств, хранятся в базе данных KEGG ENVIRON. Базы данных категории медицинской информации называются KEGG MEDICUS и включают в себя также вкладыши ко всем лекарствам, продаваемым в Японии.
В июле 2011 года KEGG представила модель подписки для загрузки по FTP из-за значительного сокращения государственного финансирования. KEGG по-прежнему доступен бесплатно через свой веб-сайт, но модель подписки вызвала дискуссии об устойчивости баз данных биоинформатики. [11] [12]