UniProt — это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, полученной из научной литературы. Его поддерживает консорциум UniProt, в который входят несколько европейских биоинформатических организаций и фонд из Вашингтона, округ Колумбия , США.
В консорциум UniProt входят Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Экспертная система анализа белков), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, организованный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дэйхофф , впервые опубликованного в 1965 году. [2] В 2002 году EBI, SIB и PIR объединили свои усилия в консорциум UniProt. [3]
Каждый член консорциума активно участвует в ведении и аннотировании базы данных белков. До недавнего времени EBI и SIB вместе создавали базы данных Swiss-Prot и TrEMBL, а PIR создавал базу данных белковых последовательностей (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с разным охватом последовательностей белков и приоритетами аннотаций.
Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики , а затем разработан Рольфом Апвейлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot стремилась предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описанием функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.). ), минимальный уровень избыточности и высокий уровень интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслированных нуклеотидных последовательностей EMBL) для предоставления автоматических аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные с ним базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.
Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]
UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.
База знаний UniProt (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные записи с аннотациями вручную) и UniProtKB/TrEMBL (содержащая непроверенные записи с автоматическими аннотациями). [11] По состоянию на 22 февраля 2023 года [обновлять]версия UniProtKB/Swiss-Prot «2023_01» содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а версия UniProtKB/TrEMBL «2023_01» содержит 245 871 724 записи последовательностей (включая 85 739 380 194 амино кислоты). [12]
UniProtKB/Swiss-Prot — это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и компьютерный анализ, оцененный биокуратором . Целью UniProtKB/Swiss-Prot является предоставление всей известной соответствующей информации о конкретном белке. Аннотация регулярно пересматривается, чтобы быть в курсе последних научных открытий. Ручная аннотация записи включает подробный анализ последовательности белка и научной литературы. [13]
Последовательности одного и того же гена и одного и того же вида объединяются в одну и ту же запись базы данных. Выявляются различия между последовательностями и документируются их причины (например, альтернативный сплайсинг , естественные вариации , неправильные сайты инициации , неправильные границы экзонов , сдвиг рамки считывания , неидентифицированные конфликты). В аннотациях записей UniProtKB/Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты отбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]
Соответствующие публикации идентифицируются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, информация извлекается и добавляется к записи. Аннотация, вытекающая из научной литературы, включает, помимо прочего: [10] [13] [14]
Аннотированные записи проходят проверку качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.
UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате проектов по геному, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB/Swiss-Prot не мог быть расширен, чтобы включить все доступные белковые последовательности. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]
UniProt Archive (UniParc) — это комплексная и неизбыточная база данных, которая содержит все белковые последовательности из основных общедоступных баз данных белковых последовательностей. [17] Белки могут существовать в нескольких разных исходных базах данных, а также в нескольких копиях в одной базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотаций. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.
В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:
Эталонные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов белковых последовательностей из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, инвентарные номера всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% или 50% идентичности последовательностей соответственно до самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.
UniRef доступен на FTP-сайте UniProt.
UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]