UniProt

UniProt — это свободно доступная база данных последовательности белков и функциональной информации, многие записи которой получены из проектов по секвенированию генома . Она содержит большой объем информации о биологической функции белков, полученной из исследовательской литературы. Она поддерживается консорциумом UniProt, который состоит из нескольких европейских организаций по биоинформатике и фонда из Вашингтона, округ Колумбия , США .

Консорциум UniProt

Консорциум UniProt состоит из Европейского института биоинформатики (EBI), Швейцарского института биоинформатики (SIB) и Информационного ресурса по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, размещает большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Expert Protein Analysis System), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, размещенный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дейхофф , впервые опубликованного в 1965 году. ^[2] В 2002 году EBI, SIB и PIR объединили свои усилия в качестве консорциума UniProt. ^[3]

Корни баз данных UniProt

Каждый член консорциума активно участвует в обслуживании и аннотации базы данных белков. До недавнего времени EBI и SIB совместно создавали базы данных Swiss-Prot и TrEMBL, в то время как PIR создавала базу данных последовательностей белков (PIR-PSD). ^[4]^[5]^[6] Эти базы данных сосуществовали с различным покрытием последовательностей белков и приоритетами аннотации.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики и впоследствии разработан Рольфом Апвайлером в Европейском институте биоинформатики . ^[7]^[8]^[9] Swiss-Prot стремился предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описание функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей способность Swiss-Prot поддерживать их, была создана TrEMBL (Translated EMBL Nucleotide Sequence Data Library) для предоставления автоматизированных аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. ^[10]

Организация баз данных UniProt

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные, вручную аннотированные записи) и UniProtKB/TrEMBL (содержащая непроверенные, автоматически аннотированные записи). ^[11] По состоянию на 22 февраля 2023 года ^{[обновлять]}выпуск «2023_01» UniProtKB/Swiss-Prot содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а выпуск «2023_01» UniProtKB/TrEMBL содержит 245 871 724 записей последовательностей (включая 85 739 380 194 аминокислоты). ^[12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot — это вручную аннотированная, не избыточная база данных последовательностей белков. Она объединяет информацию, извлеченную из научной литературы, и вычислительный анализ, оцененный биокураторами . Цель UniProtKB/Swiss-Prot — предоставить всю известную релевантную информацию о конкретном белке. Аннотации регулярно пересматриваются, чтобы соответствовать текущим научным открытиям. Ручная аннотация записи включает в себя подробный анализ последовательности белка и научной литературы. ^[13]

Последовательности из одного гена и одного вида объединяются в одну запись базы данных. Различия между последовательностями идентифицируются, и их причина документируется (например, альтернативный сплайсинг , естественная вариация , неправильные сайты инициации , неправильные границы экзонов , сдвиги рамки считывания , неопознанные конфликты). Ряд инструментов анализа последовательностей используется в аннотации записей UniProtKB/Swiss-Prot. Компьютерные предсказания оцениваются вручную, и соответствующие результаты выбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . ^[13]^[14]

Соответствующие публикации определяются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, и информация извлекается и добавляется к записи. Аннотация, полученная из научной литературы, включает, но не ограничивается: ^[10]^[13]^[14]

Названия белков и генов
Функция
Специфическая информация о ферменте, такая как каталитическая активность , кофакторы и каталитические остатки
Субклеточное расположение
Белково-белковые взаимодействия
Модель выражения
Расположение и роль значимых доменов и сайтов
Места связывания ионов , субстратов и кофакторов
Формы вариантов белка, полученные в результате естественной генетической изменчивости, редактирования РНК , альтернативного сплайсинга, протеолитической обработки и посттрансляционной модификации

Аннотированные записи проходят контроль качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

UniProtKB/TrEMBL

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые обогащены автоматической аннотацией. Он был введен в ответ на возросший поток данных в результате геномных проектов, поскольку трудоемкий и требующий много времени процесс ручной аннотации UniProtKB/Swiss-Prot не мог быть расширен для включения всех доступных последовательностей белков. ^[10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и из предсказания генов, включая Ensembl , RefSeq и CCDS . ^[15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . ^[16]

UniParc

Архив UniProt (UniParc) — это комплексная и не избыточная база данных, которая содержит все последовательности белков из основных общедоступных баз данных последовательностей белков. ^[17] Белки могут существовать в нескольких различных исходных базах данных и в нескольких копиях в одной и той же базе данных. Чтобы избежать избыточности, UniParc хранит каждую уникальную последовательность только один раз. Идентичные последовательности объединяются, независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), что позволяет идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только последовательности белков без аннотаций. Перекрестные ссылки в записях базы данных UniParc позволяют извлекать дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

Базы данных нуклеотидных последовательностей INSDC EMBL -Bank/ DDBJ / GenBank
Ансамбль
Европейское патентное ведомство (ЕПВ)
FlyBase: основное хранилище генетических и молекулярных данных для насекомых семейства Drosophilidae (FlyBase)
База данных H-Invitational (H-Inv)
Международный индекс протеинов (IPI)
Патентное ведомство Японии (JPO)
Информационный ресурс по белкам (PIR-PSD)
Банк данных белков (PDB)
Фонд исследования белков (PRF) ^[18]
РефСек
База данных генома сахаромицетов (SGD)
Информационный ресурс по арабидопсису (TAIR)
ТРОМ ^[19]
Патентное ведомство США (USPTO)
UniProtKB/Swiss-Prot, изоформы белка UniProtKB/Swiss-Prot, UniProtKB/TrEMBL
База данных аннотаций позвоночных и геномов (VEGA)
WormBase

UniRef

Справочные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов последовательностей белков из UniProtKB и выбранных записей UniParc. ^[20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, номера доступа всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. ^[20]^[21] Каждый кластер состоит из последовательностей, которые имеют по крайней мере 90% или 50% идентичности последовательности, соответственно, с самой длинной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных, что позволяет ускорить поиск последовательностей.

UniRef доступен на FTP-сайте UniProt.

Финансирование

UniProt финансируется за счет грантов Национального института исследований генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , Федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. ^[11]

Ссылки

^ UniProt, Consortium. (Январь 2015). «UniProt: центр информации о белках». Nucleic Acids Research . 43 (выпуск базы данных): D204–12. doi :10.1093/nar/gku989. PMC 4384041. PMID 25348405 .
^ Дейхофф, Маргарет О. (1965). Атлас последовательности и структуры белка . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
^ "Выпуск 2002: NHGRI финансирует глобальную базу данных белков". Национальный институт исследований генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Получено 14 апреля 2018 года .
^ О'Донован, К.; Мартин, М.Дж.; Гаттикер, А.; Гастайгер, Э.; Байрох, А.; Апвайлер, Р. (2002). «Высококачественный ресурс знаний о белках: SWISS-PROT и TrEMBL». Briefings in Bioinformatics . 3 (3): 275–284. doi : 10.1093/bib/3.3.275 . PMID 12230036.
^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар Дж.; Чен, Ю.; Ху, З.; Куртезис, П.; Ледли, РС; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках». Исследования нуклеиновых кислот . 31 (1): 345–347. дои : 10.1093/nar/gkg040. ПМК 165487 . ПМИД 12520019.
^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martin, MJ; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "База знаний о белках SWISS-PROT и ее дополнение TrEMBL в 2003 году". Nucleic Acids Research . 31 (1): 365–370. doi :10.1093/nar/gkg095. PMC 165542. PMID 12520024 .
^ Bairoch, A.; Apweiler, R. (1996). «Банк данных последовательности белков SWISS-PROT и его новое дополнение TREMBL». Nucleic Acids Research . 24 (1): 21–25. doi : 10.1093/nar/24.1.21. PMC 145613. PMID 8594581.
^ Bairoch, A. (2000). «Удивительная случайность в биоинформатике, невзгоды швейцарского биоинформатика в захватывающие времена!». Биоинформатика . 16 (1): 48–64. doi : 10.1093/bioinformatics/16.1.48 . PMID 10812477.
^ Северин Альтаирак, «Naissance d'une Banque de Données: Интервью профессора Амоса Байроха». Protéines à la Une , август 2006 г. ISSN 1660-9824.
^ abc Apweiler, R.; Bairoch, A.; Wu, CH (2004). «Базы данных последовательностей белков». Current Opinion in Chemical Biology . 8 (1): 76–80. doi :10.1016/j.cbpa.2003.12.004. PMID 15036160.
^ ab Uniprot, C. (2009). «Универсальный белковый ресурс (UniProt) в 2010 году». Nucleic Acids Research . 38 (выпуск базы данных): D142–D148. doi :10.1093/nar/gkp846. PMC 2808944. PMID 19843607 .
^ "Статистика UniProtKB/Swiss-Prot Release 2023_01". web.expasy.org . Получено 31 марта 2023 г. .
^ abc "Как вручную аннотировать запись UniProtKB?". UniProt . 21 сентября 2011 г. Архивировано из оригинала 13 декабря 2013 г. Получено 14 апреля 2018 г.
^ аб Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, К.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний по белкам». Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК 308865 . ПМИД 14681372.
^ «Откуда берутся последовательности белков UniProtKB?». UniProt . 21 сентября 2011 г. Архивировано из оригинала 15 декабря 2013 г. Получено 14 апреля 2018 г.
^ Хассабис, Демис (22 июля 2022 г.). «Передача власти AlphaFold в руки мира». Deepmind . Архивировано из оригинала 24 июля 2021 г. Получено 24 июля 2021 г.
^ Leinonen, R.; Diez, FG; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "Архив UniProt". Bioinformatics . 20 (17): 3236–3237. doi : 10.1093/bioinformatics/bth191 . PMID 15044231. Архивировано (PDF) из оригинала 30 марта 2024 г.
^ «Фонд исследования белков».
^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome ^{[ постоянная мертвая ссылка ]}
^ ab Suzek, BE; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). «UniRef: всеобъемлющие и неизбыточные справочные кластеры UniProt». Биоинформатика . 23 (10): 1282–1288. doi :10.1093/bioinformatics/btm098. PMID 17379688.
^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282–283. doi :10.1093/bioinformatics/17.3.282. PMID 11294794.

Внешние ссылки

Wikidata имеет свойство:

Идентификатор белка UniProt (P352) (см. применение )

UniProt