stringtranslate.com

Химическая база данных

Химическая база данных — это база данных , специально предназначенная для хранения химической информации . Эта информация о химических и кристаллических структурах , спектрах, реакциях и синтезах, а также теплофизических данных.

Типы химических баз данных

База данных биоактивности

Базы данных о биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, полученными из биоанализов в литературе, патентах и ​​программах скрининга.

Химические структуры

Химические структуры традиционно изображаются с помощью линий, обозначающих химические связи между атомами и нарисованных на бумаге (2D структурные формулы ). Хотя это идеальные визуальные представления для химика , они непригодны для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Однако большие молекулы, такие как белки, представляются более компактно с использованием последовательностей их строительных блоков аминокислот. Также представлены радиоактивные изотопы, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных по структурам будут обеспечивать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти.

База данных литературы

Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, посвященные химической характеристике.

Кристаллографическая база данных

Кристаллографические базы данных хранят данные рентгеновской кристаллической структуры. Типичные примеры включают банк данных о белках и Кембриджскую структурную базу данных .

База данных спектров ЯМР

Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .

База данных реакций

Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных по реакциям хранятся также промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, эдуктах и ​​механизмах реакций .

Теплофизическая база данных

Теплофизические данные – это информация о

Представление химической структуры

Существует два основных метода представления химических структур в цифровых базах данных.

Эти подходы были усовершенствованы, чтобы обеспечить представление стереохимических различий и зарядов, а также особых видов связей, например, наблюдаемых в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.

Поиск

Подструктура

Химики могут осуществлять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных особенно отличаются от других баз данных общего назначения поддержкой поиска подструктур. Этот вид поиска достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изучаемым применением теории графов . Алгоритмы поиска требуют больших вычислительных ресурсов, часто имеют временную сложность O ( n 3 ) или O ( n 4 ) (где n — количество задействованных атомов). Интенсивный компонент поиска называется поатомным поиском (ABAS), при котором ищется отображение атомов субструктуры поиска и связей с целевой молекулой. При поиске ABAS обычно используется алгоритм Ульмана [6] или его варианты ( например, SMSD [7] ). Ускорение достигается за счет амортизации времени, то есть часть времени на поисковые задачи экономится за счет использования предварительно вычисленной информации. Этот предварительный расчет обычно включает в себя создание битовых строк , отражающих наличие или отсутствие молекулярных фрагментов. Рассматривая фрагменты, присутствующие в поисковой структуре, можно исключить необходимость сравнения ABAS с целевыми молекулами, не имеющими фрагментов, присутствующих в поисковой структуре. Такое исключение называется скринингом (не путать с процедурами скрининга, используемыми при обнаружении лекарств). Битовые строки, используемые в этих приложениях, также называются структурными ключами. Производительность таких ключей зависит от выбора фрагментов, используемых для построения ключей, и вероятности их присутствия в молекулах базы данных. Другой тип ключа использует хеш-коды, основанные на фрагментах, полученных вычислительным путем. Их называют «отпечатками пальцев», хотя этот термин иногда используется как синоним структурных ключей. Объем памяти, необходимый для хранения этих структурных ключей и отпечатков пальцев, можно уменьшить путем «свертывания», которое достигается путем объединения частей ключа с помощью побитовых операций и тем самым уменьшения общей длины. [8]

Телосложение

Поиск путем сопоставления трехмерной конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиски такого типа могут быть очень дорогостоящими в вычислительном отношении. Было предложено множество приближенных методов, например, BCUTS, представления специальных функций, моменты инерции, гистограммы трассировки лучей, гистограммы максимальных расстояний, мультиполи формы и многие другие. [9] [10] [11] [12] [13]

Гига Поиск

Базы данных синтезируемых и виртуальных химических веществ с каждым годом становятся все больше, поэтому способность эффективно их добывать имеет решающее значение для проектов по открытию лекарств. MolCart Giga Search от MolSoft — это первый в мире метод, предназначенный для поиска подструктур миллиардов химических веществ. [ нужна цитата ]

Дескрипторы

Все свойства молекул, выходящие за рамки их структуры, можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Кроме того, существуют различные искусственные и более или менее стандартизированные системы наименования молекул, которые дают более или менее двусмысленные названия и синонимы . Имя IUPAC обычно является хорошим выбором для представления структуры молекулы в удобочитаемой и уникальной строке , хотя для более крупных молекул оно становится громоздким. С другой стороны, тривиальные имена изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в основном могут быть вычислены непосредственно на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно, используя задействованную многомерную статистику или экспериментальные результаты ( скрининг , биоанализ ). Все эти дескрипторы из соображений вычислительных затрат могут храниться вместе с представлением молекулы, что обычно и происходит.

Сходство

Не существует единого определения молекулярного сходства, однако это понятие может быть определено в соответствии с применением и часто описывается как обратная мера расстояния в пространстве дескрипторов. Две молекулы можно считать более похожими, например, если разница в их молекулярных массах меньше, чем по сравнению с другими. Для получения многомерной меры расстояния можно объединить множество других показателей. Меры расстояния часто подразделяются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . Поиск подструктур на основе максимального общего подграфа ( MCS ) [7] (мера сходства или расстояния) также очень распространен. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем выявления молекул, имеющих общий подграф (подструктуру). [14]

Химические вещества в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. К химическим объектам с множеством атрибутов можно применять как иерархические, так и неиерархические подходы к кластеризации. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо с помощью дескрипторов, полученных путем вычислений . Одним из наиболее популярных подходов кластеризации является алгоритм Джарвиса-Патрика. [15]

В фармакологически ориентированных химических хранилищах сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из схожих комбинаций физико-химических дескрипторов с использованием методов QSAR .

Системы регистрации

Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.

Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, за счет использования уникальных представлений. Применяя правила приоритета для создания строковых обозначений, можно получить уникальные/ канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хеш-кодов для достижения той же цели.

Ключевое различие между системой регистрации и простой базой данных по химическим веществам заключается в способности точно представлять то, что известно, неизвестно и частично известно. Например, в химической базе данных может храниться молекула с неуказанной стереохимией , тогда как система химического реестра требует от регистратора указания, является ли стереоконфигурация неизвестной, конкретной (известной) смесью или рацемической . Каждый из них будет считаться отдельной записью в системе химического реестра.

Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета тривиальных различий, таких как различия в ионах галогенов в химических веществах.

Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также регистрационный номер CAS .

Список химических картриджей

Список систем химической регистрации

веб-интерфейс

Инструменты

Вычислительные представления обычно становятся прозрачными для химиков за счет графического отображения данных. Ввод данных также упрощается за счет использования редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.

Также существуют многочисленные алгоритмы взаимного преобразования различных форматов представления. Утилита с открытым исходным кодом для преобразования — OpenBabel . Эти алгоритмы поиска и преобразования реализуются либо внутри самой системы баз данных, либо, как сейчас наблюдается тенденция, в виде внешних компонентов, которые вписываются в стандартные системы реляционных баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет использовать определяемые пользователем типы данных. Они позволяют пользователю выполнять SQL- запросы с условиями химического поиска (например, запрос на поиск записей, имеющих в своей структуре фенильное кольцо, представленное в виде строки SMILES в столбце SMILESCOL, может быть

 ВЫБЕРИТЕ * ИЗ ХЕМТАБЛИЦЫ ГДЕ SMILESCOL . СОДЕРЖИТ ( 'c1cccc1' )     

Алгоритмы преобразования названий ИЮПАК в представления структур и наоборот используются также для извлечения структурной информации из текста . Однако существуют трудности из-за существования нескольких диалектов ИЮПАК. Ведется работа по созданию уникального стандарта ИЮПАК (см. ИнЧИ ).

Смотрите также

Рекомендации

  1. ^ "Домашняя страница - ScrubChem" . Scrubchem.org . Архивировано из оригинала 26 мая 2017 года.
  2. ^ Харрис, JB (2019). «Постобработка больших данных о биологической активности». Биоинформатика и открытие лекарств . Методы Мол Биол. Том. 1939. стр. 37–47. дои : 10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. PMID  30848455. S2CID  73493315.
  3. ^ "ПабХим". pubchem.ncbi.nlm.nih.gov .
  4. ^ Ван, Ю; Брайант, Ш.; Ченг, Т; Ван, Дж; Гиндулит, А; Шумейкер, бакалавр искусств; Тиссен, Пенсильвания; Он, С; Чжан, Дж (2017). «PubChem BioAssay: обновление 2017 года». Нуклеиновые кислоты Рез . 45 (Д1): Д955–Д963. дои : 10.1093/nar/gkw1118. ПМК 5210581 . ПМИД  27899599. 
  5. ^ "База данных ЧЕМБЛ".
  6. ^ Ульманн, Джулиан Р. (1976), «Алгоритм изоморфизма подграфов», Журнал ACM , 23 (1): 31–42, CiteSeerX 10.1.1.361.7741 , doi : 10.1145/321921.321925, S2CID  17268751 
  7. ^ Аб Рахман, SA; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2000). «Набор инструментов для детектора подграфов малых молекул (SMSD)». Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК 2820491 . ПМИД  20298518. 
  8. ^ Каммингс, Максвелл Д.; Максвелл, Алан С.; ДеЖарле, Рене Л. (2007). «Обработка баз данных малых молекул для автоматического стыковки». Медицинская химия . 3 (1): 107–113. дои : 10.2174/157340607779317481. ПМИД  17266630.
  9. ^ Перлман, RS; Смит, К.М. (1999). «Проверка метрики и концепция подпространства, релевантного для рецепторов». Дж. Хим. Инф. Вычислить. Наука . 39 : 28–35. дои : 10.1021/ci980137x.
  10. ^ Лин-младший, Хунг; Кларк, Тимоти (2005). «Аналитическое, переменное разрешение, полное описание статических молекул и их свойств межмолекулярного связывания». Журнал химической информации и моделирования . 45 (4): 1010–1016. дои : 10.1021/ci050059v. ПМИД  16045295.
  11. ^ Мик, ПиДжей; Лю, З.; Тиан, Л.; Ван, CJ; Уэлш, WJ; Заухар, Р.Дж. (2006). «Подписи формы: ускорение открытия лекарств с помощью компьютера». ДДТ 2006 . 19–20 (19–20): 895–904. doi :10.1016/j.drudis.2006.08.014. ПМИД  16997139.
  12. ^ Грант, Дж. А.; Галлардо, Массачусетс; Пикап, БТ (1996). «Быстрый метод сравнения формы молекул: простое применение гауссовского описания формы молекул». Журнал вычислительной химии . 17 (14): 1653–1666. doi :10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k. S2CID  96794688.
  13. ^ Баллестер, ПиДжей; Ричардс, WG (2007). «Сверхбыстрое распознавание форм для поиска сходства в молекулярных базах данных». Труды Королевского общества А. 463 (2081): 1307–1321. Бибкод : 2007RSPSA.463.1307B. дои : 10.1098/rspa.2007.1823. S2CID  12540483.
  14. ^ Рахман, С. Асад; Баштон, М.; Холлидей, GL; Шредер, Р.; Торнтон, Дж. М. (2009). «Набор инструментов для детектора подграфов малых молекул (SMSD)». Журнал хеминформатики . 1 (1): 12. дои : 10.1186/1758-2946-1-12 . ПМК 2820491 . ПМИД  20298518. 
  15. ^ Бутина, Дарко (1999). «Кластеризация баз данных без присмотра на основе отпечатков пальцев дневного света и сходства Танимото: быстрый и автоматизированный способ кластеризации малых и больших наборов данных». хим. Инф. Вычислить. Наука . 39 (4): 747–750. дои : 10.1021/ci9803381.
  16. ^ "BIOVIA Direct - BIOVIA - Dassault Systèmes®" .
  17. ^ "JChem Engines | ChemAxon" .
  18. ^ «Химия - Картридж Oracle | Внутренняя информатика» .
  19. ^ Павлов, Д.; Рыбалкин М.; Карулин, Б. (2010). «Бинго от SciTouch LLC: Химический картридж для базы данных Oracle». Журнал хеминформатики . 2 (Приложение 1): F1. дои : 10.1186/1758-2946-2-S1-F1 . ПМК 2867114 . 
  20. ^ «Программное обеспечение для обнаружения низкомолекулярных лекарств» . Программное обеспечение для поиска низкомолекулярных лекарств .
  21. ^ «Химическая регистрация BIOVIA - BIOVIA - Dassault Systèmes®» . www.3ds.com .
  22. ^ «Регистрация». Архивировано из оригинала 10 декабря 2021 г. Проверено 13 марта 2021 г.
  23. ^ "Skilligence RegMol | Skilligence" . 6 июня 2016 г.[ постоянная мертвая ссылка ]
  24. ^ «Регистрация соединения». chemaxon.com .
  25. ^ "Записная книжка по сигналам - Информатика PerkinElmer" . perkinelmerinformatics.com .
  26. ^ «Обновление хранилища CDD: хранилище CDD теперь является ELN» . 16 февраля 2018 г.
  27. ^ "Электронный лабораторный блокнот CDD (ELN)" . 14 августа 2019 г.
  28. ^ «Электронные лабораторные тетради: что это такое (и зачем они вам нужны)» . 4 августа 2019 г.
  29. ^ «Обзор SDF Pro от Adroit DI. Июнь 2023 г. - Mac в химии» . 05.11.2023 . Проверено 11 марта 2024 г.
  30. ^ "Главная страница Adroit DI" . adroitdi.com . Проверено 10 марта 2024 г.
  31. ^ «SDF Pro от Adroit DI: быстрое и доступное решение для хранения, сортировки и обработки 10 миллионов молекул за секунды» . www.businesswire.com . 16 мая 2023 г. Проверено 10 марта 2024 г.
  32. ^ «Лучшая из лучших регистраций организаций» . 20Визионеры15 . Проверено 10 марта 2024 г.