stringtranslate.com

КЕГГ

KEGG ( Киотская энциклопедия генов и геномов ) — это коллекция баз данных, посвященных геномам , биологическим путям , болезням , лекарствам и химическим веществам . KEGG используется для исследований и образования в области биоинформатики , включая анализ данных в геномике , метагеномике , метаболомике и других исследованиях в области омики , моделирование и имитацию в системной биологии , а также трансляционные исследования в области разработки лекарств .

Проект базы данных KEGG был инициирован в 1995 году Минору Канехисой , профессором Института химических исследований Киотского университета , в рамках тогдашней Японской программы по геному человека . [1] [2] Предвидя необходимость в компьютеризированном ресурсе, который может быть использован для биологической интерпретации данных последовательности генома , он начал разработку базы данных KEGG PATHWAY. Это коллекция вручную нарисованных карт путей KEGG, представляющих экспериментальные знания о метаболизме и различных других функциях клетки и организма . Каждая карта путей содержит сеть молекулярных взаимодействий и реакций и предназначена для связывания генов в геноме с продуктами генов (в основном белками ) в пути. Это позволило провести анализ, называемый картированием путей KEGG, при котором содержание генов в геноме сравнивается с базой данных KEGG PATHWAY для изучения того, какие пути и связанные с ними функции, вероятно, закодированы в геноме.

По словам разработчиков, KEGG — это «компьютерное представление» биологической системы . [3] Он объединяет строительные блоки и схемы соединений системы, а именно генетические строительные блоки генов и белков, химические строительные блоки малых молекул и реакций, а также схемы соединений молекулярных взаимодействий и сетей реакций. Эта концепция реализована в следующих базах данных KEGG, которые подразделяются на системную, геномную, химическую и медицинскую информацию. [4]

Базы данных

Системная информация

База данных KEGG PATHWAY, база данных схем электропроводки, является ядром ресурса KEGG. Это коллекция карт путей, объединяющих множество сущностей, включая гены, белки, РНК, химические соединения, гликаны и химические реакции, а также гены болезней и мишени лекарств, которые хранятся в виде отдельных записей в других базах данных KEGG. Карты путей классифицируются по следующим разделам:

Раздел метаболизма содержит эстетически нарисованные глобальные карты, показывающие общую картину метаболизма, в дополнение к обычным картам метаболических путей. Глобальные карты с низким разрешением можно использовать, например, для сравнения метаболических возможностей различных организмов в исследованиях геномики и различных образцов окружающей среды в исследованиях метагеномики. Напротив, модули KEGG в базе данных KEGG MODULE представляют собой локализованные схемы электропроводки с более высоким разрешением, представляющие более узкие функциональные единицы в карте путей, такие как подпути, сохраненные среди определенных групп организмов и молекулярных комплексов. Модули KEGG определяются как характерные наборы генов, которые могут быть связаны с определенными метаболическими возможностями и другими фенотипическими признаками, так что их можно использовать для автоматической интерпретации данных генома и метагенома.

Другая база данных, дополняющая KEGG PATHWAY, — это база данных KEGG BRITE. Это онтологическая база данных, содержащая иерархические классификации различных сущностей, включая гены, белки, организмы, болезни, лекарства и химические соединения. В то время как KEGG PATHWAY ограничивается молекулярными взаимодействиями и реакциями этих сущностей, KEGG BRITE включает в себя множество различных типов отношений.

Геномная информация

Через несколько месяцев после начала проекта KEGG в 1995 году был опубликован первый отчет о полностью секвенированном бактериальном геноме. [5] С тех пор все опубликованные полные геномы аккумулируются в KEGG как для эукариот , так и для прокариот . База данных KEGG GENES содержит информацию на уровне генов/белков, а база данных KEGG GENOME содержит информацию на уровне организмов для этих геномов. База данных KEGG GENES состоит из наборов генов для полных геномов, и гены в каждом наборе снабжены аннотациями в форме установления соответствий схемам проводки карт путей KEGG, модулям KEGG и иерархиям BRITE.

Эти соответствия создаются с использованием концепции ортологов . Карты путей KEGG составляются на основе экспериментальных данных для конкретных организмов, но они разработаны так, чтобы их можно было применять и к другим организмам, поскольку разные организмы, такие как человек и мышь, часто имеют идентичные пути, состоящие из функционально идентичных генов, называемых ортологичными генами или ортологами. Все гены в базе данных KEGG GENES группируются в такие ортологи в базе данных KEGG ORTHOLOGY (KO). Поскольку узлам (продуктам генов) карт путей KEGG, а также модулям KEGG и иерархиям BRITE присваиваются идентификаторы KO, соответствия устанавливаются после того, как гены в геноме аннотируются идентификаторами KO с помощью процедуры аннотации генома в KEGG. [4]

Химическая информация

Карты метаболических путей KEGG составлены для представления двойных аспектов метаболической сети: геномной сети того, как геном-кодируемые ферменты связаны для катализа последовательных реакций, и химической сети того, как химические структуры субстратов и продуктов преобразуются этими реакциями. [6] Набор генов ферментов в геноме будет идентифицировать сети взаимоотношений ферментов при наложении на карты путей KEGG, которые, в свою очередь, характеризуют сети трансформации химической структуры, позволяя интерпретировать биосинтетический и биодеградационный потенциалы организма. В качестве альтернативы набор метаболитов , идентифицированных в метаболоме, приведет к пониманию ферментативных путей и задействованных генов ферментов.

Базы данных в категории химической информации, которые в совокупности называются KEGG LIGAND, организованы путем сбора знаний о химической сети. В начале проекта KEGG KEGG LIGAND состоял из трех баз данных: KEGG COMPOUND для химических соединений, KEGG REACTION для химических реакций и KEGG ENZYME для реакций в номенклатуре ферментов. [7] В настоящее время существуют дополнительные базы данных: KEGG GLYCAN для гликанов [8] и две вспомогательные базы данных реакций, называемые RPAIR (выравнивания пар реагентов) и RCLASS (класс реакций). [9] KEGG COMPOUND также был расширен, чтобы содержать различные соединения, такие как ксенобиотики , в дополнение к метаболитам.

Информация о здоровье

В KEGG заболевания рассматриваются как возмущенные состояния биологической системы, вызванные возмущениями генетических факторов и факторов окружающей среды, а лекарства рассматриваются как различные типы возмущений. [10] База данных KEGG PATHWAY включает не только нормальные состояния, но и возмущенные состояния биологических систем. Однако карты путей болезней не могут быть составлены для большинства болезней, поскольку молекулярные механизмы не до конца поняты. Альтернативный подход принят в базе данных KEGG DISEASE, которая просто каталогизирует известные генетические факторы и факторы окружающей среды болезней. Эти каталоги могут в конечном итоге привести к более полным схемам соединений болезней.

База данных KEGG DRUG содержит активные ингредиенты одобренных препаратов в Японии, США и Европе. Они различаются по химической структуре и/или химическим компонентам и связаны с целевыми молекулами, метаболизирующими ферментами и другой информацией о сетях молекулярных взаимодействий в картах путей KEGG и иерархиях BRITE. Это позволяет проводить комплексный анализ взаимодействия препаратов с геномной информацией. Необработанные лекарственные препараты и другие вещества, связанные со здоровьем, которые не входят в категорию одобренных препаратов, хранятся в базе данных KEGG ENVIRON. Базы данных в категории информации о здоровье совместно называются KEGG MEDICUS, которая также включает в себя листки-вкладыши всех продаваемых в Японии препаратов.

Модель подписки

В июле 2011 года KEGG представил модель подписки для загрузки FTP из-за значительного сокращения государственного финансирования. KEGG по-прежнему доступен бесплатно через свой веб-сайт, но модель подписки вызвала дискуссии об устойчивости баз данных биоинформатики. [11] [12]

Смотрите также

Ссылки

  1. ^ Канехиса М., Гото С. (2000). «KEGG : Киотская энциклопедия генов и геномов». Nucleic Acids Res . 28 (1): 27–30. doi :10.1093/nar/28.1.27. PMC 102409. PMID  10592173. 
  2. ^ Канехиса М (1997). «База данных для постгеномного анализа». Trends Genet . 13 (9): 375–6. doi :10.1016/S0168-9525(97)01223-7. PMID  9287494.
  3. ^ Канехиса М., Гото С., Хаттори М., Аоки-Киношита К.Ф., Ито М., Кавасима С., Катаяма Т., Араки М., Хиракава М. (2006). «От геномики к химической геномике: новые разработки в KEGG». Nucleic Acids Res . 34 (выпуск базы данных): D354–7. doi :10.1093/nar/gkj102. PMC 1347464. PMID  16381885 . 
  4. ^ ab Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). «Данные, информация, знания и принцип: возвращение к метаболизму в KEGG». Nucleic Acids Res . 42 (выпуск базы данных): D199–205. doi :10.1093/nar/gkt1076. PMC 3965122. PMID  24214961 . 
  5. ^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM и др. (1995). «Случайное секвенирование всего генома и сборка Haemophilus influenzae Rd». Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800. S2CID  10423613.
  6. ^ Канехиса М (2013). «Химическая и геномная эволюция сетей реакций, катализируемых ферментами». FEBS Lett . 587 (17): 2731–7. doi : 10.1016/j.febslet.2013.06.026. hdl : 2433/178762 . PMID  23816707. S2CID  40074657.
  7. ^ Гото С, Нисиока Т, Канехиса М (1999). «База данных LIGAND для ферментов, соединений и реакций». Nucleic Acids Res . 27 (1): 377–9. doi :10.1093/nar/27.1.377. PMC 148189. PMID  9847234 . 
  8. ^ Хашимото К, Гото С, Кавано С, Аоки-Киносита КФ, Уэда Н, Хамадзима М, Кавасаки Т, Канехиса М (2006). «KEGG как ресурс гликомной информатики». Гликобиология . 16 (5): 63R–70R. doi : 10.1093/glycob/cwj010 . PMID  16014746.
  9. ^ Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). «Модульная архитектура метаболических путей, выявленная консервативными последовательностями реакций». J Chem Inf Model . 53 (3): 613–22. doi :10.1021/ci3005379. PMC 3632090. PMID  23384306 . 
  10. ^ Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). «KEGG для представления и анализа молекулярных сетей, включающих заболевания и лекарства». Nucleic Acids Res . 38 (выпуск базы данных): D355–60. doi :10.1093/nar/gkp896. PMC 2808910. PMID  19880382 . 
  11. ^ Гальперин М.Ю., Фернандес-Суарес Х.М. (2012). «Выпуск базы данных исследований нуклеиновых кислот 2012 года и онлайн-коллекция базы данных молекулярной биологии». Nucleic Acids Res . 40 (выпуск базы данных): D1–8. doi :10.1093/nar/gkr1196. PMC 3245068. PMID  22144685 . 
  12. ^ Хейден, EC (2013). «Популярная база данных растений будет взимать плату с пользователей». Nature . doi :10.1038/nature.2013.13642. S2CID  211729309.

Внешние ссылки