ЮниПрот

UniProt — это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, полученной из научной литературы. Его поддерживает консорциум UniProt, в который входят несколько европейских биоинформатических организаций и фонд из Вашингтона, округ Колумбия , США.

Консорциум UniProt

В консорциум UniProt входят Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Экспертная система анализа белков), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, организованный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дэйхофф , впервые опубликованного в 1965 году. ^[2] В 2002 году EBI, SIB и PIR объединили свои усилия в консорциум UniProt. ^[3]

Корни баз данных UniProt

Каждый член консорциума активно участвует в ведении и аннотировании базы данных белков. До недавнего времени EBI и SIB вместе создавали базы данных Swiss-Prot и TrEMBL, а PIR создавал базу данных белковых последовательностей (PIR-PSD). ^[4]^[5]^[6] Эти базы данных сосуществовали с разным охватом последовательностей белков и приоритетами аннотаций.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики , а затем разработан Рольфом Апвейлером в Европейском институте биоинформатики . ^[7]^[8]^[9] Swiss-Prot стремилась предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описанием функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.). ), минимальный уровень избыточности и высокий уровень интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслированных нуклеотидных последовательностей EMBL) для предоставления автоматических аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные с ним базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. ^[10]

Организация баз данных UniProt

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

УниПротКБ

База знаний UniProt (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные записи с аннотациями вручную) и UniProtKB/TrEMBL (содержащая непроверенные записи с автоматическими аннотациями). ^[11] По состоянию на 22 февраля 2023 года ^{[обновлять]}версия UniProtKB/Swiss-Prot «2023_01» содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а версия UniProtKB/TrEMBL «2023_01» содержит 245 871 724 записи последовательностей (включая 85 739 380 194 амино кислоты). ^[12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot — это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и компьютерный анализ, оцененный биокуратором . Целью UniProtKB/Swiss-Prot является предоставление всей известной соответствующей информации о конкретном белке. Аннотация регулярно пересматривается, чтобы быть в курсе последних научных открытий. Ручная аннотация записи включает подробный анализ последовательности белка и научной литературы. ^[13]

Последовательности одного и того же гена и одного и того же вида объединяются в одну и ту же запись базы данных. Выявляются различия между последовательностями и документируются их причины (например, альтернативный сплайсинг , естественные вариации , неправильные сайты инициации , неправильные границы экзонов , сдвиг рамки считывания , неидентифицированные конфликты). В аннотациях записей UniProtKB/Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты отбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . ^[13]^[14]

Соответствующие публикации идентифицируются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, информация извлекается и добавляется к записи. Аннотация, вытекающая из научной литературы, включает, помимо прочего: ^[10]^[13]^[14]

Названия белков и генов
Функция
Информация, специфичная для фермента , такая как каталитическая активность , кофакторы и каталитические остатки.
Субклеточное расположение
Белково-белковые взаимодействия
Образец выражения
Расположение и роли важных доменов и сайтов
Ион- , субстрат- и кофактор-связывающие сайты
Вариантные формы белка, полученные путем естественных генетических вариаций, редактирования РНК , альтернативного сплайсинга, протеолитического процессинга и посттрансляционной модификации.

Аннотированные записи проходят проверку качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

УниПротКБ/ТрЕМБЛ

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате проектов по геному, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB/Swiss-Prot не мог быть расширен, чтобы включить все доступные белковые последовательности. ^[10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и предсказания генов, включая Ensembl , RefSeq и CCDS . ^[15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . ^[16]

ЮниПарк

UniProt Archive (UniParc) — это комплексная и неизбыточная база данных, которая содержит все белковые последовательности из основных общедоступных баз данных белковых последовательностей. ^[17] Белки могут существовать в нескольких разных исходных базах данных, а также в нескольких копиях в одной базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотаций. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

Базы данных нуклеотидных последовательностей INSDC EMBL -Bank/ DDBJ / GenBank
Ансамбль
Европейское патентное ведомство (ЕПВ)
FlyBase: основное хранилище генетических и молекулярных данных семейства насекомых Drosophilidae (FlyBase).
База данных H-Invitational (H-Inv)
Международный белковый индекс (IPI)
Патентное ведомство Японии (JPO)
Информационный ресурс о белках (PIR-PSD)
Банк данных белков (PDB)
Фонд исследования белка (PRF) ^[18]
RefSeq
База данных геномов сахаромицетов (SGD)
Информационный ресурс арабидопсиса (TAIR)
ТРОМ ^[19]
Патентное ведомство США (USPTO)
UniProtKB/Swiss-Prot, изоформы белка UniProtKB/Swiss-Prot, UniProtKB/TrEMBL
База данных аннотаций геномов и позвоночных (VEGA)
Червячная база

UniRef

Эталонные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов белковых последовательностей из UniProtKB и выбранных записей UniParc. ^[20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, инвентарные номера всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. ^[20]^[21] Каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% или 50% идентичности последовательностей соответственно до самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.

UniRef доступен на FTP-сайте UniProt.

Финансирование

UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. ^[11]

Внешние ссылки

Викиданные обладают свойством:

Идентификатор белка UniProt (P352) (см. раздел «Использование» )

ЮниПрот