Protein Data Bank ( PDB ) [1] — это база данных для трехмерных структурных данных больших биологических молекул, таких как белки и нуклеиновые кислоты , которая курируется Всемирным банком данных о белках (wwPDB). Эти структурные данные получаются и хранятся биологами и биохимиками по всему миру с использованием экспериментальных методик, таких как рентгеновская кристаллография , ЯМР-спектроскопия и, все чаще, криоэлектронная микроскопия . Все представленные данные проверяются экспертами -биокураторами и после одобрения становятся свободно доступными в Интернете в соответствии с лицензией CC0 Public Domain Dedication. [2] Глобальный доступ к данным предоставляется веб-сайтами организаций-членов wwPDB (PDBe, [3] PDBj, [4] RCSB PDB, [5] и BMRB [6] ).
PDB является ключом в областях структурной биологии , таких как структурная геномика . Большинство крупных научных журналов и некоторые финансирующие агентства теперь требуют от ученых предоставления своих структурных данных в PDB. Многие другие базы данных используют структуры белков, размещенные в PDB. Например, SCOP и CATH классифицируют структуры белков, в то время как PDBsum предоставляет графический обзор записей PDB, используя информацию из других источников, таких как Gene Ontology . [7] [8]
Две силы сошлись, чтобы инициировать PDB: небольшая, но растущая коллекция наборов данных о структуре белков, определенных с помощью рентгеновской дифракции; и недавно появившийся (1968) молекулярный графический дисплей Brookhaven RAster Display (BRAD) для визуализации этих структур белков в 3D. В 1969 году при спонсорской поддержке Уолтера Гамильтона из Брукхейвенской национальной лаборатории Эдгар Мейер ( Техасский университет A&M ) начал писать программное обеспечение для хранения файлов атомных координат в общем формате, чтобы сделать их доступными для геометрической и графической оценки. К 1971 году одна из программ Мейера, SEARCH, позволила исследователям удаленно получать доступ к информации из базы данных для изучения структур белков в автономном режиме. [9] SEARCH сыграл важную роль в обеспечении сетевого взаимодействия, тем самым ознаменовав функциональное начало PDB.
Банк данных белков был анонсирован в октябре 1971 года в журнале Nature New Biology [10] как совместное предприятие Кембриджского центра кристаллографических данных (Великобритания) и Брукхейвенской национальной лаборатории (США).
После смерти Гамильтона в 1973 году Том Кетцле взял на себя руководство PDB на последующие 20 лет. В январе 1994 года Джоэл Сассман из Израильского института науки Вейцмана был назначен главой PDB. В октябре 1998 года [11] PDB была переведена в Исследовательский центр структурной биоинформатики (RCSB); [12] перевод был завершен в июне 1999 года. Новым директором стала Хелен М. Берман из Ратгерского университета (один из управляющих институтов RCSB, другой — Суперкомпьютерный центр Сан-Диего при Калифорнийском университете в Сан-Диего ). [13] В 2003 году с образованием wwPDB PDB стала международной организацией. Членами-основателями являются PDBe (Европа), [3] RCSB (США) и PDBj (Япония). [4] BMRB [6] присоединился в 2006 году. Каждый из четырех членов wwPDB может выступать в качестве центров депонирования, обработки данных и распространения данных PDB. Обработка данных подразумевает, что сотрудники wwPDB просматривают и аннотируют каждую представленную запись. [14] Затем данные автоматически проверяются на достоверность (исходный код [15] для этого программного обеспечения для проверки был предоставлен общественности бесплатно).
База данных PDB обновляется еженедельно ( среда , UTC +0) вместе со списком активов. [17] По состоянию на 10 января 2023 года [обновлять]в PDB входили:
Большинство структур определяются методом рентгеновской дифракции, но около 7% структур определяются методом ЯМР белков . При использовании рентгеновской дифракции получаются приближения координат атомов белка, тогда как при использовании ЯМР оценивается расстояние между парами атомов белка. Окончательная конформация белка получается из ЯМР путем решения задачи геометрии расстояний . После 2013 года все большее число белков определяется методом криоэлектронной микроскопии .
Для структур PDB, определенных методом рентгеновской дифракции, имеющих файл структурного фактора, можно просмотреть карту их электронной плотности. Данные таких структур можно просмотреть на трех веб-сайтах PDB.
Исторически число структур в PDB росло примерно экспоненциально: в 1982 году было зарегистрировано 100 структур, в 1993 году — 1000 структур, в 1999 году — 10 000, в 2014 году — 100 000 и в январе 2023 года — 200 000. [18] [19]
Формат файла, изначально используемый PDB, назывался форматом файла PDB. Первоначальный формат был ограничен шириной компьютерных перфокарт до 80 символов на строку. Около 1996 года был поэтапно введен формат «файла макромолекулярной кристаллографической информации», mmCIF, который является расширением формата CIF . mmCIF стал стандартным форматом для архива PDB в 2014 году . [20] В 2019 году wwPDB объявила, что отложения для кристаллографических методов будут приниматься только в формате mmCIF. [21]
XML- версия PDB, называемая PDBML, была описана в 2005 году. [22] Файлы структур можно загрузить в любом из этих трех форматов, хотя все большее число структур не соответствуют устаревшему формату PDB. Отдельные файлы легко загружаются в графические пакеты с интернет- адресов :
http://www.pdb.org/pdb/files/4hhb.pdb.gz
илиhttp://pdbe.org/download/4hhb
http://www.pdb.org/pdb/files/4hhb.xml.gz
илиhttp://pdbe.org/pdbml/4hhb
" 4hhb
" — это идентификатор PDB. Каждая структура, опубликованная в PDB, получает четырехзначный буквенно-цифровой идентификатор, свой PDB ID. (Это не уникальный идентификатор для биомолекул, поскольку несколько структур для одной и той же молекулы — в разных средах или конформациях — могут содержаться в PDB с разными PDB ID.)
Файлы структур можно просматривать с помощью одной из нескольких бесплатных и открытых программ , включая Jmol , Pymol , VMD , Molstar и Rasmol . Другие несвободные, условно-бесплатные программы включают ICM-Browser, [23] MDL Chime , UCSF Chimera , Swiss-PDB Viewer, [24] StarBiochem [25] (интерактивный молекулярный просмотрщик на основе Java с интегрированным поиском в банке данных белков), Sirius и VisProt3DS [26] (инструмент для визуализации белков в 3D-стереоскопическом виде в анаглифическом и других режимах), а также Discovery Studio . Веб-сайт RCSB PDB содержит обширный список как бесплатных, так и коммерческих программ визуализации молекул и плагинов для веб-браузеров.