База данных классификации структур белков CATH — это бесплатный, общедоступный онлайн-ресурс, предоставляющий информацию об эволюционных связях доменов белков . Она была создана в середине 1990-х годов профессором Кристин Оренго и коллегами, включая Джанет Торнтон и Дэвида Джонса , [2] и продолжает разрабатываться группой Оренго в Университетском колледже Лондона . CATH разделяет многие общие черты с ресурсом SCOP , однако есть также много областей, в которых подробная классификация сильно отличается. [3] [4] [5] [6]
Экспериментально определенные трехмерные структуры белков получаются из Protein Data Bank и разделяются на их последовательные полипептидные цепи , где это применимо. Домены белков идентифицируются в этих цепях с использованием смеси автоматических методов и ручного курирования. [7]
Затем домены классифицируются в рамках структурной иерархии CATH: на уровне класса (C) домены назначаются в соответствии с содержанием их вторичной структуры , то есть все альфа , все бета , смесь альфа и бета или небольшая вторичная структура; на уровне архитектуры (A) для назначения используется информация о расположении вторичной структуры в трехмерном пространстве; на уровне топологии/складки (T) используется информация о том, как соединены и организованы элементы вторичной структуры; назначения на уровень гомологичного суперсемейства (H) производятся, если есть веские доказательства того, что домены связаны эволюцией [2], то есть они гомологичны.
Дополнительные данные о последовательностях для доменов без экспериментально определенных структур предоставляются родственным ресурсом CATH, Gene3D, которые используются для заполнения гомологичных суперсемейств. Последовательности белков из UniProtKB и Ensembl сканируются с помощью CATH HMMs для прогнозирования границ последовательностей доменов и выполнения назначений гомологичных суперсемейств.
Команда CATH выпускает новые данные как в виде ежедневных снимков, так и официальных релизов примерно ежегодно. Последний релиз CATH-Gene3D (v4.3) был выпущен в декабре 2020 года и состоит из: [8]
CATH — это проект программного обеспечения с открытым исходным кодом , в рамках которого разработчики разрабатывают и поддерживают ряд инструментов с открытым исходным кодом, [9] которые доступны публично на GitHub . [10]