Кембриджская структурная база данных ( CSD ) является как репозиторием, так и проверенным и курируемым ресурсом для трехмерных структурных данных молекул , обычно содержащих по крайней мере углерод и водород , включая широкий спектр органических , металлоорганических и металлоорганических молекул. Конкретные записи дополняют другие кристаллографические базы данных , такие как Protein Data Bank (PDB), Inorganic Crystal Structure Database и International Centre for Diffraction Data . Данные, обычно полученные с помощью рентгеновской кристаллографии и реже с помощью электронной дифракции или нейтронной дифракции , и представленные кристаллографами и химиками со всего мира, находятся в свободном доступе (в том виде, в котором они были размещены авторами) в Интернете через веб-сайт головной организации CSD (CCDC, Repository [1] ). CSD контролируется некоммерческой зарегистрированной компанией под названием Cambridge Crystallographic Data Centre , CCDC.
CSD является широко используемым репозиторием для малых молекулярных органических и металлоорганических кристаллических структур для ученых. Структуры, депонированные в Кембриджском центре кристаллографических данных (CCDC), доступны для скачивания в момент публикации или с согласия депонента. Они также научно обогащены и включены в базу данных, используемую программным обеспечением, предлагаемым центром. Целевые подмножества CSD также доступны бесплатно для поддержки обучения и других видов деятельности. [2]
CCDC выросла из деятельности группы кристаллографии под руководством Ольги Кеннард OBE FRS на кафедре органической, неорганической и теоретической химии Кембриджского университета . С 1965 года группа начала собирать опубликованные библиографические, химические и данные о кристаллической структуре для всех малых молекул, изученных с помощью рентгеновской или нейтронной дифракции . С быстрым развитием вычислительной техники , происходящим в это время, эта коллекция была закодирована в электронной форме и стала известна как Кембриджская структурная база данных (CSD).
CSD была одной из первых числовых научных баз данных, которая начала работать где-либо в мире, и получила академические гранты от Управления научной и технической информации Великобритании, а затем от Совета по научным и инженерным исследованиям Великобритании . Эти средства, вместе с субсидиями от Национальных аффилированных центров, позволили разработать CSD и связанное с ней программное обеспечение в 1970-х и 1980-х годах. Первые выпуски системы CSD в США, Италии и Японии произошли в начале 1970-х годов. К началу 1980-х годов система CSD была распространена более чем в 30 странах. По состоянию на 2014 год система CSD была распространена среди ученых в 70 странах.
В 1980-х годах интерес к системе CSD со стороны фармацевтических и агрохимических компаний значительно возрос. Это привело к созданию в 1987 году Кембриджского центра кристаллографических данных (CCDC) как независимой компании с юридическим статусом некоммерческой благотворительной организации, а ее деятельность контролировалась международным советом управляющих. В 1992 году CCDC переехал в специально построенное здание на месте химического факультета университета.
Кеннард ушел с поста директора в 1997 году, и его сменили Дэвид Хартли (1997-2002) и Фрэнк Аллен (2002-2008). Колин Грум был назначен исполнительным директором с 1 октября 2008 года [3] по сентябрь 2017 года. [4] И совсем недавно, в июне 2018 года, Юрген Хартер был назначен генеральным директором. [5]
Программные продукты CCDC диверсифицированы для использования кристаллографических данных в приложениях в области естественных наук и кристаллографии. Большая часть разработки и маркетинга этого программного обеспечения осуществляется CCDC Software Limited (основана в 1998 году), дочерней компанией, полностью принадлежащей компании, которая передает всю свою прибыль обратно в CCDC.
Хотя CCDC является самоуправляемой организацией, она сохраняет тесные связи с Кембриджским университетом и является партнерским учреждением университета, имеющим право готовить аспирантов для получения более высоких степеней (PhD, MPhil).
В октябре 2013 года CCDC начал работу в США по подаче заявок и поддержке операций, [6] [7] изначально в Ратгерском университете, Университете штата Нью-Джерси , где он размещался совместно с Банком данных белков RCSB.
CSD обновляется примерно 50 000 новых структур каждый год, [8] и улучшениями существующих записей. Записи (структуры) в репозитории публикуются для публичного доступа, как только соответствующая запись появляется в рецензируемой научной литературе. Между тем, данные также могут быть депонированы и опубликованы напрямую через CSD без сопроводительной научной статьи, как то, что известно как CSD Communication.
Периодически публикуются общие статистические данные о широте активов центральных депозитариев ценных бумаг, например, отчет за январь 2014 года. [9] По состоянию на январь 2019 года [обновлять]сводная статистика выглядит следующим образом: [10]
По состоянию на январь 2019 года 25 крупнейших научных журналов по объему публикации структур в репозитории CSD были: [11]
На эти 25 журналов приходится 704 541 из 996 193 или 70,7% структур в CSD.
Эти данные показывают, что большинство структур определяются методом рентгеновской дифракции, а менее 1% структур определяются методом нейтронной дифракции или порошковой дифракции . Количество безошибочных координат было взято как процент структур, для которых трехмерные координаты присутствуют в CSD.
Значимость файлов структурных факторов, упомянутых выше, заключается в том, что для структур CSD, определенных методом рентгеновской дифракции, имеющих структурный файл, кристаллограф может проверить интерпретацию наблюдаемых измерений.
Исторически число структур в CSD росло примерно экспоненциально, преодолев рубеж в 25 000 структур в 1977 году, рубеж в 50 000 структур в 1983 году, рубеж в 125 000 структур в 1992 году, рубеж в 250 000 структур в 2001 году, рубеж в 500 000 структур в 2009 году [12] [13] [14] и рубеж в 1 000 000 структур 8 июня 2019 года [15] Миллионная структура, добавленная в CSD, — это кристаллическая структура 1-(7,9-диацетил-11-метил-6H-азепино[1,2-a]индол-6-ил)пропан-2-она.
Примечание: данные за 1923-1964 годы объединены в последней строке таблицы.
Основным форматом файла для структурного осаждения CSD, принятым около 1991 года, является формат «Файла кристаллографической информации» , CIF. [16]
Депонированные файлы CSD можно загрузить в формате CIF. Проверенные и проверенные файлы CSD можно экспортировать в широкий спектр форматов, включая CIF, MOL, Mol2, PDB, SHELX и XMol, используя инструменты в системе CSD.
CCDC использует два разных кода для различения депонированного набора данных и курируемой записи CSD. Например, одна конкретная « CSD Communication » органической молекулы была депонирована в CCDC и ей был присвоен номер депонирования «CCDC-991327». Это обеспечивает свободный публичный доступ к данным в том виде, в котором они были депонированы. Из депонированных данных извлекается выбранная информация для подготовки проверенной и курируемой записи CSD, которой был присвоен рефкод «MITGUT». В рамках процесса курирования CCDC также применяет алгоритм DeCIFer, чтобы помочь редакторам назначать химию структурам, когда эти представления (например, типы связей и назначения зарядов и т. д.) отсутствуют в исходных представленных файлах CIF. [8] Проверенная и курируемая запись включается в дистрибутивы CSD System и WebCSD, с доступностью, ограниченной для тех, кто вносит соответствующий вклад.
Каждый набор данных в CSD можно открыто просматривать и извлекать с помощью бесплатной службы Access Structure. С помощью этой службы на основе веб-браузера пользователи могут просматривать набор данных в 2D и 3D, получать некоторую базовую информацию о структуре и загружать депонированный набор данных. Более продвинутые функции поиска и курируемая информация доступны через систему CSD на основе подписки.
Помимо использования системы CSD, файлы структуры можно просматривать с помощью одной из нескольких программ с открытым исходным кодом, таких как Jmol . Некоторые другие бесплатные, но не с открытым исходным кодом программы включают MDL Chime , Pymol , UCSF Chimera , Rasmol , WINGX, [17] CCDC предоставляет бесплатную версию своей программы визуализации Mercury.
Начиная с 2015 года Mercury от CCDC также предоставляет функционал для создания готовых к 3D-печати файлов из структур в CSD. [18]