UniProt — это свободно доступная база данных последовательности белков и функциональной информации, многие записи которой получены из проектов по секвенированию генома . Она содержит большой объем информации о биологической функции белков, полученной из исследовательской литературы. Она поддерживается консорциумом UniProt, который состоит из нескольких европейских организаций по биоинформатике и фонда из Вашингтона, округ Колумбия , США .
Консорциум UniProt состоит из Европейского института биоинформатики (EBI), Швейцарского института биоинформатики (SIB) и Информационного ресурса по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, размещает большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Expert Protein Analysis System), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, размещенный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дейхофф , впервые опубликованного в 1965 году. [2] В 2002 году EBI, SIB и PIR объединили свои усилия в качестве консорциума UniProt. [3]
Каждый член консорциума активно участвует в обслуживании и аннотации базы данных белков. До недавнего времени EBI и SIB совместно создавали базы данных Swiss-Prot и TrEMBL, в то время как PIR создавала базу данных последовательностей белков (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с различным покрытием последовательностей белков и приоритетами аннотации.
Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики и впоследствии разработан Рольфом Апвайлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot стремился предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описание функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей способность Swiss-Prot поддерживать их, была создана TrEMBL (Translated EMBL Nucleotide Sequence Data Library) для предоставления автоматизированных аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.
Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]
UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.
UniProt Knowledgebase (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные, вручную аннотированные записи) и UniProtKB/TrEMBL (содержащая непроверенные, автоматически аннотированные записи). [11] По состоянию на 22 февраля 2023 года [обновлять]выпуск «2023_01» UniProtKB/Swiss-Prot содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а выпуск «2023_01» UniProtKB/TrEMBL содержит 245 871 724 записей последовательностей (включая 85 739 380 194 аминокислоты). [12]
UniProtKB/Swiss-Prot — это вручную аннотированная, не избыточная база данных последовательностей белков. Она объединяет информацию, извлеченную из научной литературы, и вычислительный анализ, оцененный биокураторами . Цель UniProtKB/Swiss-Prot — предоставить всю известную релевантную информацию о конкретном белке. Аннотации регулярно пересматриваются, чтобы соответствовать текущим научным открытиям. Ручная аннотация записи включает в себя подробный анализ последовательности белка и научной литературы. [13]
Последовательности из одного гена и одного вида объединяются в одну запись базы данных. Различия между последовательностями идентифицируются, и их причина документируется (например, альтернативный сплайсинг , естественная вариация , неправильные сайты инициации , неправильные границы экзонов , сдвиги рамки считывания , неопознанные конфликты). Ряд инструментов анализа последовательностей используется в аннотации записей UniProtKB/Swiss-Prot. Компьютерные предсказания оцениваются вручную, и соответствующие результаты выбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]
Соответствующие публикации определяются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, и информация извлекается и добавляется к записи. Аннотация, полученная из научной литературы, включает, но не ограничивается: [10] [13] [14]
Аннотированные записи проходят контроль качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.
UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые обогащены автоматической аннотацией. Он был введен в ответ на возросший поток данных в результате геномных проектов, поскольку трудоемкий и требующий много времени процесс ручной аннотации UniProtKB/Swiss-Prot не мог быть расширен для включения всех доступных последовательностей белков. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и из предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]
Архив UniProt (UniParc) — это комплексная и не избыточная база данных, которая содержит все последовательности белков из основных общедоступных баз данных последовательностей белков. [17] Белки могут существовать в нескольких различных исходных базах данных и в нескольких копиях в одной и той же базе данных. Чтобы избежать избыточности, UniParc хранит каждую уникальную последовательность только один раз. Идентичные последовательности объединяются, независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), что позволяет идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только последовательности белков без аннотаций. Перекрестные ссылки в записях базы данных UniParc позволяют извлекать дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.
В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:
Справочные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов последовательностей белков из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, номера доступа всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по крайней мере 90% или 50% идентичности последовательности, соответственно, с самой длинной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных, что позволяет ускорить поиск последовательностей.
UniRef доступен на FTP-сайте UniProt.
UniProt финансируется за счет грантов Национального института исследований генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , Федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]