stringtranslate.com

UniProt

UniProt — это свободно доступная база данных последовательности белков и функциональной информации, многие записи которой получены из проектов по секвенированию генома . Она содержит большой объем информации о биологической функции белков, полученной из исследовательской литературы. Она поддерживается консорциумом UniProt, который состоит из нескольких европейских организаций по биоинформатике и фонда из Вашингтона, округ Колумбия , США .

Консорциум UniProt

Консорциум UniProt состоит из Европейского института биоинформатики (EBI), Швейцарского института биоинформатики (SIB) и Информационного ресурса по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, размещает большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Expert Protein Analysis System), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, размещенный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дейхофф , впервые опубликованного в 1965 году. [2] В 2002 году EBI, SIB и PIR объединили свои усилия в качестве консорциума UniProt. [3]

Корни баз данных UniProt

Каждый член консорциума активно участвует в обслуживании и аннотации базы данных белков. До недавнего времени EBI и SIB совместно создавали базы данных Swiss-Prot и TrEMBL, в то время как PIR создавала базу данных последовательностей белков (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с различным покрытием последовательностей белков и приоритетами аннотации.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики и впоследствии разработан Рольфом Апвайлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot стремился предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описание функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей способность Swiss-Prot поддерживать их, была создана TrEMBL (Translated EMBL Nucleotide Sequence Data Library) для предоставления автоматизированных аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]

Организация баз данных UniProt

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные, вручную аннотированные записи) и UniProtKB/TrEMBL (содержащая непроверенные, автоматически аннотированные записи). [11] По состоянию на 22 февраля 2023 года выпуск «2023_01» UniProtKB/Swiss-Prot содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а выпуск «2023_01» UniProtKB/TrEMBL содержит 245 871 724 записей последовательностей (включая 85 739 380 194 аминокислоты). [12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot — это вручную аннотированная, не избыточная база данных последовательностей белков. Она объединяет информацию, извлеченную из научной литературы, и вычислительный анализ, оцененный биокураторами . Цель UniProtKB/Swiss-Prot — предоставить всю известную релевантную информацию о конкретном белке. Аннотации регулярно пересматриваются, чтобы соответствовать текущим научным открытиям. Ручная аннотация записи включает в себя подробный анализ последовательности белка и научной литературы. [13]

Последовательности из одного гена и одного вида объединяются в одну запись базы данных. Различия между последовательностями идентифицируются, и их причина документируется (например, альтернативный сплайсинг , естественная вариация , неправильные сайты инициации , неправильные границы экзонов , сдвиги рамки считывания , неопознанные конфликты). Ряд инструментов анализа последовательностей используется в аннотации записей UniProtKB/Swiss-Prot. Компьютерные предсказания оцениваются вручную, и соответствующие результаты выбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]

Соответствующие публикации определяются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, и информация извлекается и добавляется к записи. Аннотация, полученная из научной литературы, включает, но не ограничивается: [10] [13] [14]

Аннотированные записи проходят контроль качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

UniProtKB/TrEMBL

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые обогащены автоматической аннотацией. Он был введен в ответ на возросший поток данных в результате геномных проектов, поскольку трудоемкий и требующий много времени процесс ручной аннотации UniProtKB/Swiss-Prot не мог быть расширен для включения всех доступных последовательностей белков. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и из предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]

UniParc

Архив UniProt (UniParc) — это комплексная и не избыточная база данных, которая содержит все последовательности белков из основных общедоступных баз данных последовательностей белков. [17] Белки могут существовать в нескольких различных исходных базах данных и в нескольких копиях в одной и той же базе данных. Чтобы избежать избыточности, UniParc хранит каждую уникальную последовательность только один раз. Идентичные последовательности объединяются, независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), что позволяет идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только последовательности белков без аннотаций. Перекрестные ссылки в записях базы данных UniParc позволяют извлекать дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

UniRef

Справочные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов последовательностей белков из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, номера доступа всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по крайней мере 90% или 50% идентичности последовательности, соответственно, с самой длинной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных, что позволяет ускорить поиск последовательностей.

UniRef доступен на FTP-сайте UniProt.

Финансирование

UniProt финансируется за счет грантов Национального института исследований генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , Федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]

Ссылки

  1. ^ UniProt, Consortium. (Январь 2015). «UniProt: центр информации о белках». Nucleic Acids Research . 43 (выпуск базы данных): D204–12. doi :10.1093/nar/gku989. PMC  4384041. PMID  25348405 .
  2. ^ Дейхофф, Маргарет О. (1965). Атлас последовательности и структуры белка . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
  3. ^ "Выпуск 2002: NHGRI финансирует глобальную базу данных белков". Национальный институт исследований генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Получено 14 апреля 2018 года .
  4. ^ О'Донован, К.; Мартин, М.Дж.; Гаттикер, А.; Гастайгер, Э.; Байрох, А.; Апвайлер, Р. (2002). «Высококачественный ресурс знаний о белках: SWISS-PROT и TrEMBL». Briefings in Bioinformatics . 3 (3): 275–284. doi : 10.1093/bib/3.3.275 . PMID  12230036.
  5. ^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар Дж.; Чен, Ю.; Ху, З.; Куртезис, П.; Ледли, РС; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках». Исследования нуклеиновых кислот . 31 (1): 345–347. дои : 10.1093/nar/gkg040. ПМК 165487 . ПМИД  12520019. 
  6. ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martin, MJ; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "База знаний о белках SWISS-PROT и ее дополнение TrEMBL в 2003 году". Nucleic Acids Research . 31 (1): 365–370. doi :10.1093/nar/gkg095. PMC 165542. PMID  12520024 . 
  7. ^ Bairoch, A.; Apweiler, R. (1996). «Банк данных последовательности белков SWISS-PROT и его новое дополнение TREMBL». Nucleic Acids Research . 24 (1): 21–25. doi : 10.1093/nar/24.1.21. PMC 145613. PMID  8594581. 
  8. ^ Bairoch, A. (2000). «Удивительная случайность в биоинформатике, невзгоды швейцарского биоинформатика в захватывающие времена!». Биоинформатика . 16 (1): 48–64. doi : 10.1093/bioinformatics/16.1.48 . PMID  10812477.
  9. ^ Северин Альтаирак, «Naissance d'une Banque de Données: Интервью профессора Амоса Байроха». Protéines à la Une , август 2006 г. ISSN  1660-9824.
  10. ^ abc Apweiler, R.; Bairoch, A.; Wu, CH (2004). «Базы данных последовательностей белков». Current Opinion in Chemical Biology . 8 (1): 76–80. doi :10.1016/j.cbpa.2003.12.004. PMID  15036160.
  11. ^ ab Uniprot, C. (2009). «Универсальный белковый ресурс (UniProt) в 2010 году». Nucleic Acids Research . 38 (выпуск базы данных): D142–D148. doi :10.1093/nar/gkp846. PMC 2808944. PMID 19843607  . 
  12. ^ "Статистика UniProtKB/Swiss-Prot Release 2023_01". web.expasy.org . Получено 31 марта 2023 г. .
  13. ^ abc "Как вручную аннотировать запись UniProtKB?". UniProt . 21 сентября 2011 г. Архивировано из оригинала 13 декабря 2013 г. Получено 14 апреля 2018 г.
  14. ^ аб Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, К.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний по белкам». Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК 308865 . ПМИД  14681372. 
  15. ^ «Откуда берутся последовательности белков UniProtKB?». UniProt . 21 сентября 2011 г. Архивировано из оригинала 15 декабря 2013 г. Получено 14 апреля 2018 г.
  16. ^ Хассабис, Демис (22 июля 2022 г.). «Передача власти AlphaFold в руки мира». Deepmind . Архивировано из оригинала 24 июля 2021 г. Получено 24 июля 2021 г.
  17. ^ Leinonen, R.; Diez, FG; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "Архив UniProt". Bioinformatics . 20 (17): 3236–3237. doi : 10.1093/bioinformatics/bth191 . PMID  15044231. Архивировано (PDF) из оригинала 30 марта 2024 г.
  18. ^ «Фонд исследования белков».
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ постоянная мертвая ссылка ]
  20. ^ ab Suzek, BE; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). «UniRef: всеобъемлющие и неизбыточные справочные кластеры UniProt». Биоинформатика . 23 (10): 1282–1288. doi :10.1093/bioinformatics/btm098. PMID  17379688.
  21. ^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282–283. doi :10.1093/bioinformatics/17.3.282. PMID  11294794.

Внешние ссылки