База данных химической информации
PubChem — это база данных химических молекул и их активности в биологических анализах . Система поддерживается Национальным центром биотехнологической информации (NCBI), компонентом Национальной медицинской библиотеки , которая является частью Национальных институтов здравоохранения США (NIH). Доступ к PubChem можно получить бесплатно через веб -интерфейс . Миллионы структур соединений и описательных наборов данных можно бесплатно загрузить через FTP . PubChem содержит множество описаний веществ и малых молекул с менее чем 100 атомами и 1000 связями. Более 80 поставщиков баз данных вносят свой вклад в растущую базу данных PubChem. [2]
История
PubChem был выпущен в 2004 году как компонент Программы молекулярных библиотек (MLP) NIH. По состоянию на ноябрь 2015 года PubChem содержит более 150 миллионов описаний веществ, предоставленных депозиторами, 60 миллионов уникальных химических структур и 225 миллионов результатов испытаний биологической активности (из более чем 1 миллиона экспериментов по анализу, проведенных на более чем 2 миллионах малых молекул, охватывающих почти 10 000 уникальных целевых последовательностей белков, которые соответствуют более чем 5000 генов). Он также содержит скрининговые анализы РНК-интерференции (РНКi), которые нацелены на более чем 15 000 генов. [3]
По состоянию на август 2018 года PubChem содержит 247,3 млн описаний веществ, 96,5 млн уникальных химических структур, предоставленных 629 источниками данных из 40 стран. Он также содержит 237 млн результатов тестов биоактивности из 1,25 млн биологических анализов, охватывающих >10 000 целевых последовательностей белков. [4]
По состоянию на 2020 год, благодаря интеграции данных из более чем 100 новых источников, PubChem содержит более 293 миллионов описаний веществ, предоставленных депозиторами, 111 миллионов уникальных химических структур и 271 миллион точек данных о биологической активности из 1,2 миллиона экспериментов биологических анализов. [5]
Базы данных
PubChem состоит из трех динамически растущих основных баз данных. По состоянию на 5 ноября 2020 г. (количество BioAssays не изменилось):
- Соединения, 111 миллионов записей [5] (по сравнению с 94 миллионами записей в 2017 году [4] ), содержат чистые и охарактеризованные химические соединения. [6]
- Вещества, 293 миллиона записей [5] (по сравнению с 236 миллионами записей в 2017 году [7] и 163 миллионами в сентябре 2014 года [8] ), содержат также смеси, экстракты , комплексы и неохарактеризованные вещества.
- BioAssay, результаты биологической активности , полученные в результате 1,25 миллиона [9] (по сравнению с 6000 в сентябре 2014 года [10] ) высокопроизводительных программ скрининга с несколькими миллионами значений.
Идет поиск
Поиск в базах данных возможен по широкому спектру свойств, включая химическую структуру, фрагменты названий, химическую формулу , молекулярную массу , XLogP , а также количество доноров и акцепторов водородных связей .
PubChem содержит собственный онлайн- редактор молекул с поддержкой SMILES /SMARTS и InChI , который позволяет импортировать и экспортировать все распространенные форматы химических файлов для поиска структур и фрагментов.
Каждое совпадение предоставляет информацию о синонимах, химических свойствах, химической структуре, включая строки SMILES и InChI, биологической активности, а также ссылки на структурно родственные соединения и другие базы данных NCBI, такие как PubMed .
В форме текстового поиска можно выполнять поиск по полям базы данных, добавляя имя поля в квадратных скобках к поисковому запросу. Числовой диапазон представлен двумя числами, разделенными двоеточием. Поисковые запросы и имена полей нечувствительны к регистру. Можно использовать скобки и логические операторы AND, OR и NOT. AND подразумевается, если оператор не используется.
Пример ( Правило пяти Липински ):
0:500[мв] 0:5[hbdc] 0:10[hbac] -5:5[logp]
Поля базы данных
Смотрите также
- Химическая база данных
- CAS Common Chemistry — проводится Американским химическим обществом
- Сравнительная токсикогеномная база данных , поддерживаемая Университетом штата Северная Каролина
- ChEMBL — проводится Европейским институтом биоинформатики
- ChemSpider — проект, организованный Королевским химическим обществом Великобритании.
- DrugBank — управляется Университетом Альберты
- IUPAC — управляется Международным союзом теоретической и прикладной химии (IUPAC), базирующимся в Швейцарии.
- Moltable — находится в ведении Национальной химической лаборатории Индии.
- PubChem — организован Национальным институтом здравоохранения США.
- BindingDB — управляется Калифорнийским университетом в Сан-Диего
- SCRIPDB — поддерживается Университетом Торонто, Канада
- Национальный центр биотехнологической информации (NCBI) — управляется Национальным институтом здравоохранения США.
- Entrez — под управлением Национального института здравоохранения США.
- GenBank — управляется Национальным институтом здравоохранения США.
Ссылки
- ^ Ким, Сонгхван; Тиссен, Пол А.; Ченг, Тиецзюнь; Чжан, Цзянь; Гиндулите, Аста; Болтон, Эван Э. (9 августа 2019 г.). «PUG-View: программный доступ к химическим аннотациям, интегрированным в PubChem». Журнал химинформатики . 11 (1): 56. doi : 10.1186/s13321-019-0375-2 . PMC 6688265. PMID 31399858 .
- ^ "Исходная информация PubChem". Проект PubChem . США: Национальный центр биотехнологической информации.
- ^ Ким, Сонгхван; Тиссен, Пол А.; Ченг, Тиецзюнь; Ю, Бо; Шумейкер, Бенджамин А.; Ван, Цзияо; Болтон, Эван Э.; Ван, Яньли; Брайант, Стивен Х. (2016). «Литературная информация в PubChem: ассоциации между записями PubChem и научными статьями». Журнал химинформатики . 8 : Статья 32. doi : 10.1186/s13321-016-0142-6 . PMC 4901473. PMID 27293485 .
- ^ ab "Результаты поиска для всех соединений" . Получено 28 января 2016 г.
- ^ abc Ким, Сонхван; Чен, Цзе; Ченг, Теджун; Гиндулит, Аста; Он, Цзя; Он, Сикиан; Ли, Цинлян; Шумейкер, Бенджамин А; Тиссен, Пол А; Ю, Бо; Заславский, Леонид; Чжан, Цзянь; Болтон, Эван Э (8 января 2021 г.). «PubChem в 2021 году: новый контент данных и улучшенные веб-интерфейсы». Исследования нуклеиновых кислот . 49 (Д1): Д1388–Д1395. дои : 10.1093/nar/gkaa971 . ПМЦ 7778930 . ПМИД 33151290.
- ^ "all[filt] - PubChem Compound Results". Проект PubChem . США: Национальный центр биотехнологической информации . Получено 7 января 2011 г.
- ^ "all[filt] - PubChem Substance Results". Проект PubChem . США: Национальный центр биотехнологической информации . Получено 28 января 2016 г.
- ^ "all[filt] - PubChem Substance Results". Проект PubChem . США: Национальный центр биотехнологической информации . Получено 7 января 2011 г.
- ^ "all[filt] - PubChem BioAssay Results". Проект PubChem . США: Национальный центр биотехнологической информации . Получено 28 января 2016 г.
- ^ "all[filt] - PubChem BioAssay Results". Проект PubChem . США: Национальный центр биотехнологической информации . Получено 7 января 2011 г.
- ^ Ченг Т (ноябрь 2007 г.). «Вычисление коэффициентов распределения октанол-вода с помощью аддитивной модели со знаниями». Журнал химической информации и моделирования . 47 (6): 2140–2148. doi :10.1021/ci700257y. PMID 17985865.
Внешние ссылки