КЕГГ

KEGG ( Киотская энциклопедия генов и геномов ) — это коллекция баз данных, посвященных геномам , биологическим путям , болезням , лекарствам и химическим веществам . KEGG используется для исследований и образования в области биоинформатики , включая анализ данных в геномике , метагеномике , метаболомике и других исследованиях в области омики , моделирование и имитацию в системной биологии , а также трансляционные исследования в области разработки лекарств .

Проект базы данных KEGG был инициирован в 1995 году Минору Канехисой , профессором Института химических исследований Киотского университета , в рамках тогдашней Японской программы по геному человека . ^[1]^[2] Предвидя необходимость в компьютеризированном ресурсе, который может быть использован для биологической интерпретации данных последовательности генома , он начал разработку базы данных KEGG PATHWAY. Это коллекция вручную нарисованных карт путей KEGG, представляющих экспериментальные знания о метаболизме и различных других функциях клетки и организма . Каждая карта путей содержит сеть молекулярных взаимодействий и реакций и предназначена для связывания генов в геноме с продуктами генов (в основном белками ) в пути. Это позволило провести анализ, называемый картированием путей KEGG, при котором содержание генов в геноме сравнивается с базой данных KEGG PATHWAY для изучения того, какие пути и связанные с ними функции, вероятно, закодированы в геноме.

По словам разработчиков, KEGG — это «компьютерное представление» биологической системы . ^[3] Он объединяет строительные блоки и схемы соединений системы, а именно генетические строительные блоки генов и белков, химические строительные блоки малых молекул и реакций, а также схемы соединений молекулярных взаимодействий и сетей реакций. Эта концепция реализована в следующих базах данных KEGG, которые подразделяются на системную, геномную, химическую и медицинскую информацию. ^[4]

Системная информация
- ПУТЬ: карты путей для клеточных и организменных функций
- МОДУЛЬ: модули или функциональные единицы генов
- BRITE: иерархические классификации биологических объектов
Геномная информация
- ГЕНОМ: полные геномы
- ГЕНЫ: гены и белки в полных геномах
- ОРТОЛОГИЯ: ортологичные группы генов в полных геномах
Химическая информация
- СОЕДИНЕНИЕ, ГЛИКАН: химические соединения и гликаны
- РЕАКЦИЯ, RPAIR, RCLASS: химические реакции
- ФЕРМЕНТ: номенклатура ферментов
Информация о здоровье
- БОЛЕЗНЬ: болезни человека
- ПРЕПАРАТ: одобренные препараты
- ENVIRON: лекарственное сырье и вещества, связанные со здоровьем

Базы данных

Системная информация

База данных KEGG PATHWAY, база данных схем электропроводки, является ядром ресурса KEGG. Это коллекция карт путей, объединяющих множество сущностей, включая гены, белки, РНК, химические соединения, гликаны и химические реакции, а также гены болезней и мишени лекарств, которые хранятся в виде отдельных записей в других базах данных KEGG. Карты путей классифицируются по следующим разделам:

Метаболизм
Обработка генетической информации ( транскрипция , трансляция , репликация и репарация и т. д.)
Обработка информации об окружающей среде ( мембранный транспорт , передача сигнала и т. д.)
Клеточные процессы ( рост клеток , гибель клеток , функции клеточной мембраны и т. д.)
Системы организма ( иммунная система , эндокринная система , нервная система и т. д.)
Болезни человека
Разработка лекарств

Раздел метаболизма содержит эстетически нарисованные глобальные карты, показывающие общую картину метаболизма, в дополнение к обычным картам метаболических путей. Глобальные карты с низким разрешением можно использовать, например, для сравнения метаболических возможностей различных организмов в исследованиях геномики и различных образцов окружающей среды в исследованиях метагеномики. Напротив, модули KEGG в базе данных KEGG MODULE представляют собой локализованные схемы электропроводки с более высоким разрешением, представляющие более узкие функциональные единицы в карте путей, такие как подпути, сохраненные среди определенных групп организмов и молекулярных комплексов. Модули KEGG определяются как характерные наборы генов, которые могут быть связаны с определенными метаболическими возможностями и другими фенотипическими признаками, так что их можно использовать для автоматической интерпретации данных генома и метагенома.

Другая база данных, дополняющая KEGG PATHWAY, — это база данных KEGG BRITE. Это онтологическая база данных, содержащая иерархические классификации различных сущностей, включая гены, белки, организмы, болезни, лекарства и химические соединения. В то время как KEGG PATHWAY ограничивается молекулярными взаимодействиями и реакциями этих сущностей, KEGG BRITE включает в себя множество различных типов отношений.

Геномная информация

Через несколько месяцев после начала проекта KEGG в 1995 году был опубликован первый отчет о полностью секвенированном бактериальном геноме. ^[5] С тех пор все опубликованные полные геномы аккумулируются в KEGG как для эукариот , так и для прокариот . База данных KEGG GENES содержит информацию на уровне генов/белков, а база данных KEGG GENOME содержит информацию на уровне организмов для этих геномов. База данных KEGG GENES состоит из наборов генов для полных геномов, и гены в каждом наборе снабжены аннотациями в форме установления соответствий схемам проводки карт путей KEGG, модулям KEGG и иерархиям BRITE.

Эти соответствия создаются с использованием концепции ортологов . Карты путей KEGG составляются на основе экспериментальных данных для конкретных организмов, но они разработаны так, чтобы их можно было применять и к другим организмам, поскольку разные организмы, такие как человек и мышь, часто имеют идентичные пути, состоящие из функционально идентичных генов, называемых ортологичными генами или ортологами. Все гены в базе данных KEGG GENES группируются в такие ортологи в базе данных KEGG ORTHOLOGY (KO). Поскольку узлам (продуктам генов) карт путей KEGG, а также модулям KEGG и иерархиям BRITE присваиваются идентификаторы KO, соответствия устанавливаются после того, как гены в геноме аннотируются идентификаторами KO с помощью процедуры аннотации генома в KEGG. ^[4]

Химическая информация

Карты метаболических путей KEGG составлены для представления двойных аспектов метаболической сети: геномной сети того, как геном-кодируемые ферменты связаны для катализа последовательных реакций, и химической сети того, как химические структуры субстратов и продуктов преобразуются этими реакциями. ^[6] Набор генов ферментов в геноме будет идентифицировать сети взаимоотношений ферментов при наложении на карты путей KEGG, которые, в свою очередь, характеризуют сети трансформации химической структуры, позволяя интерпретировать биосинтетический и биодеградационный потенциалы организма. В качестве альтернативы набор метаболитов , идентифицированных в метаболоме, приведет к пониманию ферментативных путей и задействованных генов ферментов.

Базы данных в категории химической информации, которые в совокупности называются KEGG LIGAND, организованы путем сбора знаний о химической сети. В начале проекта KEGG KEGG LIGAND состоял из трех баз данных: KEGG COMPOUND для химических соединений, KEGG REACTION для химических реакций и KEGG ENZYME для реакций в номенклатуре ферментов. ^[7] В настоящее время существуют дополнительные базы данных: KEGG GLYCAN для гликанов ^[8] и две вспомогательные базы данных реакций, называемые RPAIR (выравнивания пар реагентов) и RCLASS (класс реакций). ^[9] KEGG COMPOUND также был расширен, чтобы содержать различные соединения, такие как ксенобиотики , в дополнение к метаболитам.

Информация о здоровье

В KEGG заболевания рассматриваются как возмущенные состояния биологической системы, вызванные возмущениями генетических факторов и факторов окружающей среды, а лекарства рассматриваются как различные типы возмущений. ^[10] База данных KEGG PATHWAY включает не только нормальные состояния, но и возмущенные состояния биологических систем. Однако карты путей болезней не могут быть составлены для большинства болезней, поскольку молекулярные механизмы не до конца поняты. Альтернативный подход принят в базе данных KEGG DISEASE, которая просто каталогизирует известные генетические факторы и факторы окружающей среды болезней. Эти каталоги могут в конечном итоге привести к более полным схемам соединений болезней.

База данных KEGG DRUG содержит активные ингредиенты одобренных препаратов в Японии, США и Европе. Они различаются по химической структуре и/или химическим компонентам и связаны с целевыми молекулами, метаболизирующими ферментами и другой информацией о сетях молекулярных взаимодействий в картах путей KEGG и иерархиях BRITE. Это позволяет проводить комплексный анализ взаимодействия препаратов с геномной информацией. Необработанные лекарственные препараты и другие вещества, связанные со здоровьем, которые не входят в категорию одобренных препаратов, хранятся в базе данных KEGG ENVIRON. Базы данных в категории информации о здоровье совместно называются KEGG MEDICUS, которая также включает в себя листки-вкладыши всех продаваемых в Японии препаратов.

Модель подписки

В июле 2011 года KEGG представил модель подписки для загрузки FTP из-за значительного сокращения государственного финансирования. KEGG по-прежнему доступен бесплатно через свой веб-сайт, но модель подписки вызвала дискуссии об устойчивости баз данных биоинформатики. ^[11]^[12]

Смотрите также

Сравнительная токсикогеномная база данных - CTD объединяет пути KEGG с токсикогеномными данными и данными о заболеваниях
ConsensusPathDB — база данных молекулярно-функционального взаимодействия, объединяющая информацию из KEGG
Генная онтология (GO)
PubMed
Унипрот
База данных генетических заболеваний

Ссылки

^ Канехиса М., Гото С. (2000). «KEGG : Киотская энциклопедия генов и геномов». Nucleic Acids Res . 28 (1): 27–30. doi :10.1093/nar/28.1.27. PMC 102409. PMID 10592173.
^ Канехиса М (1997). «База данных для постгеномного анализа». Trends Genet . 13 (9): 375–6. doi :10.1016/S0168-9525(97)01223-7. PMID 9287494.
^ Канехиса М., Гото С., Хаттори М., Аоки-Киношита К.Ф., Ито М., Кавасима С., Катаяма Т., Араки М., Хиракава М. (2006). «От геномики к химической геномике: новые разработки в KEGG». Nucleic Acids Res . 34 (выпуск базы данных): D354–7. doi :10.1093/nar/gkj102. PMC 1347464. PMID 16381885 .
^ ab Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). «Данные, информация, знания и принцип: возвращение к метаболизму в KEGG». Nucleic Acids Res . 42 (выпуск базы данных): D199–205. doi :10.1093/nar/gkt1076. PMC 3965122. PMID 24214961 .
^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM и др. (1995). «Случайное секвенирование всего генома и сборка Haemophilus influenzae Rd». Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID 7542800. S2CID 10423613.
^ Канехиса М (2013). «Химическая и геномная эволюция сетей реакций, катализируемых ферментами». FEBS Lett . 587 (17): 2731–7. doi : 10.1016/j.febslet.2013.06.026. hdl : 2433/178762 . PMID 23816707. S2CID 40074657.
^ Гото С, Нисиока Т, Канехиса М (1999). «База данных LIGAND для ферментов, соединений и реакций». Nucleic Acids Res . 27 (1): 377–9. doi :10.1093/nar/27.1.377. PMC 148189. PMID 9847234 .
^ Хашимото К, Гото С, Кавано С, Аоки-Киносита КФ, Уэда Н, Хамадзима М, Кавасаки Т, Канехиса М (2006). «KEGG как ресурс гликомной информатики». Гликобиология . 16 (5): 63R–70R. doi : 10.1093/glycob/cwj010 . PMID 16014746.
^ Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). «Модульная архитектура метаболических путей, выявленная консервативными последовательностями реакций». J Chem Inf Model . 53 (3): 613–22. doi :10.1021/ci3005379. PMC 3632090. PMID 23384306 .
^ Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). «KEGG для представления и анализа молекулярных сетей, включающих заболевания и лекарства». Nucleic Acids Res . 38 (выпуск базы данных): D355–60. doi :10.1093/nar/gkp896. PMC 2808910. PMID 19880382 .
^ Гальперин М.Ю., Фернандес-Суарес Х.М. (2012). «Выпуск базы данных исследований нуклеиновых кислот 2012 года и онлайн-коллекция базы данных молекулярной биологии». Nucleic Acids Res . 40 (выпуск базы данных): D1–8. doi :10.1093/nar/gkr1196. PMC 3245068. PMID 22144685 .
^ Хейден, EC (2013). «Популярная база данных растений будет взимать плату с пользователей». Nature . doi :10.1038/nature.2013.13642. S2CID 211729309.

Внешние ссылки

Wikidata имеет свойство:

KEGG ID (P665) (см. использование )

веб-сайт КЕГГ
Зеркальный сайт GenomeNet
Запись для KEGG в MetaBase