stringtranslate.com

ЮниПрот

UniProt — это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, полученной из научной литературы. Его поддерживает консорциум UniProt, в который входят несколько европейских биоинформатических организаций и фонд из Вашингтона, округ Колумбия , США.

Консорциум UniProt

В консорциум UniProt входят Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Экспертная система анализа белков), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, организованный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дэйхофф , впервые опубликованного в 1965 году. [2] В 2002 году EBI, SIB и PIR объединили свои усилия в консорциум UniProt. [3]

Корни баз данных UniProt

Каждый член консорциума активно участвует в ведении и аннотировании базы данных белков. До недавнего времени EBI и SIB вместе создавали базы данных Swiss-Prot и TrEMBL, а PIR создавал базу данных белковых последовательностей (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с разным охватом последовательностей белков и приоритетами аннотаций.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики , а затем разработан Рольфом Апвейлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot стремилась предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описанием функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.). ), минимальный уровень избыточности и высокий уровень интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслированных нуклеотидных последовательностей EMBL) для предоставления автоматических аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные с ним базы данных, включая iProClass, базу данных белковых последовательностей и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]

Организация баз данных UniProt

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

УниПротКБ

База знаний UniProt (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные записи с аннотациями вручную) и UniProtKB/TrEMBL (содержащая непроверенные записи с автоматическими аннотациями). [11] По состоянию на 22 февраля 2023 года версия UniProtKB/Swiss-Prot «2023_01» содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а версия UniProtKB/TrEMBL «2023_01» содержит 245 871 724 записи последовательностей (включая 85 739 380 194 амино кислоты). [12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot — это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и компьютерный анализ, оцененный биокуратором . Целью UniProtKB/Swiss-Prot является предоставление всей известной соответствующей информации о конкретном белке. Аннотация регулярно пересматривается, чтобы быть в курсе последних научных открытий. Ручная аннотация записи включает подробный анализ последовательности белка и научной литературы. [13]

Последовательности одного и того же гена и одного и того же вида объединяются в одну и ту же запись базы данных. Выявляются различия между последовательностями и документируются их причины (например, альтернативный сплайсинг , естественные вариации , неправильные сайты инициации , неправильные границы экзонов , сдвиг рамки считывания , неидентифицированные конфликты). В аннотациях записей UniProtKB/Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты отбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]

Соответствующие публикации идентифицируются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, информация извлекается и добавляется к записи. Аннотация, вытекающая из научной литературы, включает, помимо прочего: [10] [13] [14]

Аннотированные записи проходят проверку качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

УниПротКБ/ТрЕМБЛ

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате проектов по геному, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB/Swiss-Prot не мог быть расширен, чтобы включить все доступные белковые последовательности. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]

ЮниПарк

UniProt Archive (UniParc) — это комплексная и неизбыточная база данных, которая содержит все белковые последовательности из основных общедоступных баз данных белковых последовательностей. [17] Белки могут существовать в нескольких разных исходных базах данных, а также в нескольких копиях в одной базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотаций. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

UniRef

Эталонные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов белковых последовательностей из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, инвентарные номера всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% или 50% идентичности последовательностей соответственно до самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.

UniRef доступен на FTP-сайте UniProt.

Финансирование

UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]

Рекомендации

  1. ^ UniProt, Консорциум. (январь 2015 г.). «UniProt: центр информации о белках». Исследования нуклеиновых кислот . 43 (Проблема с базой данных): D204–12. дои : 10.1093/nar/gku989. ПМЦ  4384041 . ПМИД  25348405.
  2. ^ Дайхофф, Маргарет О. (1965). Атлас последовательности и структуры белков . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
  3. ^ «Выпуск 2002 г.: Глобальная база данных по белкам, финансируемая NHGRI» . Национальный институт исследования генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Проверено 14 апреля 2018 г.
  4. ^ О'Донован, К.; Мартин, MJ; Гаттикер, А.; Гастайгер, Э.; Байрох, А.; Апвейлер, Р. (2002). «Ресурс знаний о высококачественных белках: SWISS-PROT и TrEMBL». Брифинги по биоинформатике . 3 (3): 275–284. дои : 10.1093/нагрудник/3.3.275 . ПМИД  12230036.
  5. ^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар Дж.; Чен, Ю.; Ху, З.; Куртезис, П.; Ледли, РС; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках». Исследования нуклеиновых кислот . 31 (1): 345–347. дои : 10.1093/nar/gkg040. ПМК 165487 . ПМИД  12520019. 
  6. ^ Бекманн, Б.; Байрох, А.; Апвейлер, Р.; Блаттер, MC; Эстрайхер, А.; Гастайгер, Э.; Мартин, MJ; Мишуд, К.; О'Донован, К.; Фан, И.; Пилбоут, С.; Шнайдер, М. (2003). «База знаний по белкам SWISS-PROT и ее дополнение TrEMBL в 2003 году». Исследования нуклеиновых кислот . 31 (1): 365–370. дои : 10.1093/nar/gkg095. ПМК 165542 . ПМИД  12520024. 
  7. ^ Байрох, А.; Апвейлер, Р. (1996). «Банк данных последовательностей белков SWISS-PROT и его новое дополнение TREMBL». Исследования нуклеиновых кислот . 24 (1): 21–25. дои : 10.1093/нар/24.1.21. ПМЦ 145613 . ПМИД  8594581. 
  8. ^ Байрох, А. (2000). «Интуиция в биоинформатике, невзгоды швейцарского биоинформатика в захватывающие времена!». Биоинформатика . 16 (1): 48–64. дои : 10.1093/биоинформатика/16.1.48 . ПМИД  10812477.
  9. ^ Северин Альтаирак, «Naissance d'une Banque de Données: Интервью профессора Амоса Байроха». Protéines à la Une , август 2006 г. ISSN  1660-9824.
  10. ^ abc Апвейлер, Р.; Байрох, А.; Ву, CH (2004). «База данных последовательностей белков». Современное мнение в области химической биологии . 8 (1): 76–80. дои : 10.1016/j.cbpa.2003.12.004. ПМИД  15036160.
  11. ^ ab Uniprot, C. (2009). «Универсальный ресурс белка (UniProt) в 2010 году». Исследования нуклеиновых кислот . 38 (Проблема с базой данных): D142–D148. дои : 10.1093/nar/gkp846. ПМК 2808944 . ПМИД  19843607. 
  12. ^ "Статистика UniProtKB/Swiss-Prot Release 2023_01" . web.expasy.org . Проверено 31 марта 2023 г.
  13. ^ abc «Как вручную аннотировать запись UniProtKB?». ЮниПрот . 21 сентября 2011 года. Архивировано из оригинала 13 декабря 2013 года . Проверено 14 апреля 2018 г.
  14. ^ аб Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, К.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний о белках». Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК 308865 . ПМИД  14681372. 
  15. ^ «Откуда берутся белковые последовательности UniProtKB?». ЮниПрот . 21 сентября 2011 г. Архивировано из оригинала 15 декабря 2013 г. . Проверено 14 апреля 2018 г.
  16. Хассабис, Демис (22 июля 2022 г.). «Передача силы AlphaFold в руки мира». Глубокий разум . Архивировано из оригинала 24 июля 2021 года . Проверено 24 июля 2021 г.
  17. ^ Лейнонен, Р.; Диес, ФГ; Биннс, Д.; Флейшманн, В.; Лопес, Р.; Апвейлер, Р. (2004). «Архив ЮниПрот». Биоинформатика . 20 (17): 3236–3237. doi : 10.1093/биоинформатика/bth191 . PMID  15044231. Архивировано (PDF) из оригинала 30 марта 2024 г.
  18. ^ «Фонд исследования белка».
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ постоянная неработающая ссылка ]
  20. ^ аб Сузек, BE; Хуанг, Х.; МакГарви, П.; Мазумдер, Р.; Ву, CH (2007). «UniRef: комплексные и неизбыточные эталонные кластеры UniProt». Биоинформатика . 23 (10): 1282–1288. doi : 10.1093/биоинформатика/btm098. ПМИД  17379688.
  21. ^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282–283. doi : 10.1093/биоинформатика/17.3.282. ПМИД  11294794.

Внешние ссылки