База данных консервативных доменов ( CDD ) представляет собой базу данных хорошо аннотированных моделей множественного выравнивания последовательностей и производных моделей поиска в базе данных для древних доменов и полноразмерных белков. [1]
Домены можно рассматривать как отдельные функциональные и/или структурные единицы белка. На самом деле эти две классификации довольно часто совпадают, и то, что обнаруживается как независимая сворачивающаяся единица полипептидной цепи, также несет специфическую функцию. Домены часто идентифицируются как повторяющиеся единицы (последовательность или структура), которые могут существовать в различных контекстах. В молекулярной эволюции такие домены могли использоваться в качестве строительных блоков и рекомбинироваться в различных формах для модуляции функции белка. CDD определяет консервативные домены как повторяющиеся единицы в молекулярной эволюции, размеры которых можно определить с помощью анализа последовательности и структуры.
Цель проекта по курированию консервативных доменов NCBI — предоставить пользователям базы данных информацию о том, как закономерности сохранения и дивергенции остатков в семействе связаны с функциональными свойствами, а также предоставить полезные ссылки на более подробную информацию, которая может помочь понять эту последовательность/структуру. /функциональные отношения. Для этого кураторы CDD включают следующие типы информации, чтобы дополнить и обогатить традиционные множественные выравнивания последовательностей, которые составляют основу моделей доменов: трехмерные структуры и консервативные основные мотивы, консервативные признаки/сайты, филогенетическая организация, ссылки на электронные литературные ресурсы.
Содержимое CDD включает модели предметной области, созданные вручную NCBI, и модели предметной области, импортированные из ряда внешних исходных баз данных ( Pfam , SMART, COG, PRK, TIGRFAMs ). Уникальность доменов, курируемых NCBI, заключается в том, что они используют информацию о трехмерной структуре для явного определения границ доменов, выравнивания блоков, изменения деталей выравнивания и предоставления информации об отношениях последовательность/структура/функция. Модели, созданные вручную, организуются иерархически, если они описывают семейства доменов, явно связанные общим происхождением. Чтобы обеспечить неизбыточное представление данных, CDD группирует схожие модели предметной области из различных источников в суперсемейства.
Коллекция также является частью поисково-поисковой системы NCBI Entrez , имеющей перекрестные ссылки на множество других ресурсов. CDD обеспечивает аннотацию следов домена и консервативных функциональных сайтов на белковых последовательностях. Предварительно рассчитанные аннотации доменов могут быть получены для белковых последовательностей, отслеживаемых в системе Entrez NCBI, а коллекция моделей CDD может быть запрошена с помощью новых белковых последовательностей * через «службу CD-Search». Национальный центр биотехнологической информации США., или по адресу* «Пакетный поиск компакт-дисков». Национальный центр биотехнологической информации США., что позволяет вычислять и загружать аннотации для больших наборов белковых запросов.