stringtranslate.com

Формат химического файла

Формат химического файла — это тип файла данных, который используется специально для изображения молекулярных данных. Одним из наиболее широко используемых является формат файлов химических таблиц , который аналогичен файлам формата структурных данных (SDF) . Это текстовые файлы, которые представляют собой несколько записей химической структуры и связанных с ними полей данных. Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат банка данных белков обычно используется для белков, но также используется и для других типов молекул. Есть много других типов, которые подробно описаны ниже. Доступны различные программные системы для преобразования из одного формата в другой.

Различение форматов

Химическая информация обычно предоставляется в виде файлов или потоков , и было создано множество форматов с различной степенью документирования. Формат указывается тремя способами:
(см. § Проект Chemical MIME)

Химический язык разметки

Язык химической разметки (CML) — это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях «Инструменты для работы с языком химической разметки и XML для химии и биологических наук» ХМЛ обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.

Формат банка данных белков

Формат банка данных белков обычно используется для белков, но его можно использовать и для других типов молекул. Первоначально он был разработан и продолжает оставаться форматом с фиксированной шириной столбца и, таким образом, официально имеет встроенное максимальное количество атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Однако многие инструменты могут читать файлы, размер которых превышает эти ограничения. Например, рибосома E. coli 70S в 2009 году была представлена ​​в виде 4 PDB-файлов: 3I1M, заархивировано 5 октября 2016 г. на Wayback Machine , 3I1N, заархивировано 16 октября 2016 г. на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C.

Некоторые файлы PDB содержат дополнительный раздел, описывающий соединение атомов, а также их положение. Поскольку эти файлы иногда используются для описания макромолекулярных ансамблей или молекул, представленных в явном растворителе , они могут вырасти до очень больших размеров и часто сжимаются. Некоторые инструменты, такие как Jmol и KiNG [1] , могут читать файлы PDB в формате gzip. wwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0), а также были устранены многие проблемы с файлами в существующей базе данных. [2] Типичное расширение файла PDB — .pdb, хотя в некоторых старых файлах используется .entили .brk. Некоторые инструменты молекулярного моделирования пишут нестандартные файлы в стиле PDB, которые адаптируют базовый формат к своим потребностям.

формат ГРОМАКС

Семейство форматов файлов GROMACS было создано для использования с пакетом программного обеспечения для молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому обеспечивает дополнительную числовую точность и при необходимости сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и системы. Типичное расширение файла GROMACS — .gro.

Формат ШАРММ

Пакет молекулярной динамики CHARMM [3] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF ( файл структуры белка ) во многом уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, похож на формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и необходим перед началом моделирования. Типичные используемые расширения файлов: .crdи .psfсоответственно.

формат GSD

Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи типовых моделей частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue. Пакет также содержит модуль Python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом.[1]

Гемический формат файла

Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию используется формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header, !Info, !Atoms, !Bonds, и ).!Coord!PartialCharges!End

Предлагаемый тип MIME для этого формата — application/x-ghhemical .

Обозначение строки SYBYL

SYBYL Line Notation (SLN) — это химическая линия обозначения . Основанный на SMILES, он включает в себя полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

УЛЫБКИ

Упрощенная система ввода строк молекулярного ввода , или SMILES, [4] представляет собой строковое обозначение молекул. Строки SMILES включают связность, но не включают 2D- или 3D-координаты.

Атомы водорода не представлены. Другие атомы представлены символами своих элементов B, C, N, O, F, P, , , и S. Символ обозначает двойные связи и тройные связи. Ветвление обозначается . Кольца обозначаются парами цифр.ClBrI=#( )

Некоторые примеры:

XYZ

Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами.

номер лея

Номер MDL содержит уникальный идентификационный номер для каждой реакции и варианта. Формат: RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы

Одним из наиболее широко используемых отраслевых стандартов являются форматы файлов химических таблиц , такие как файлы формата структурных данных (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных с ними полей данных. Формат был первоначально разработан и опубликован компанией Molecular Design Limited (MDL). MOL — это еще один формат файлов MDL. Это описано в Главе 4 Форматов CTfile . [5]

PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (ASN1 чаще всего представляет собой двоичный формат).

В таблице ниже указано большое количество других форматов.

Преобразование между форматами

OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

obabel -i input_format input_file -o output_format output_file

Например, чтобы преобразовать файл эпинефрин.sdf из SDF в CML, используйте команду

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

Полученный файл — эпинефрин.cml.

IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и программ по теории функционала плотности плоских волн. Он также поддерживает гибкую структуру для создания входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов можно найти по адресу https://iodata.readthedocs.io/en/latest/formats.html.

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в различных форматах и ​​записывать их в других форматах. В эту категорию подходят инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol [ 6] и Discovery Studio .

Химический проект MIME

«Химический MIME» — это фактический подход для добавления типов MIME к химическим потокам.

Этот проект начался в январе 1994 года и впервые был анонсирован на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 года. ... Первая версия интернет-проекта была опубликована в мае – октябре 1994 года, а вторая пересмотренная версия в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитету по печатным и электронным публикациям) на заседании ИЮПАК в августе 1996 г., доступен для обсуждения. [7]

В 1998 году работа была официально опубликована в JCIM . [8]

Поддерживать

Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [9] [10] Затем программы могут регистрироваться в качестве просмотра, редактора или процессора для этих форматов, чтобы была доступна полная поддержка химических типов MIME.

Источники химических данных

Вот краткий список источников свободно доступных молекулярных данных. В Интернете существует гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.

  1. База данных PubChem Национального института здравоохранения США является огромным источником химических данных. Все данные представлены в двух измерениях. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных о белках (wwPDB) [11] является отличным источником данных о молекулярных координатах белков и нуклеиновых кислот. Данные являются трехмерными и предоставляются в формате Protein Data Bank (PDB).
  3. eMolecules — коммерческая база данных молекулярных данных. Данные включают в себя двумерную структурную диаграмму и строку смайлов для каждого соединения. eMolecules поддерживает быстрый поиск подструктур на основе частей молекулярной структуры.
  4. ChemExper — это коммерческая база данных молекулярных данных. Результаты поиска включают двумерную структурную диаграмму и файл кротов для многих соединений.
  5. Библиотека трехмерных молекулярных структур Нью-Йоркского университета .
  6. Сеть баз данных о токсичности с возможностью поиска по распределенной структуре (DSSTox) Агентства по охране окружающей среды США является проектом Программы вычислительной токсикологии Агентства по охране окружающей среды. В базе данных содержатся молекулярные файлы SDF с акцентом на канцерогенные и другие токсичные вещества.

Смотрите также

Рекомендации

  1. ^ Чен, В.Б.; и другие. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации». Белковая наука . 18 (11): 2403–2409. дои : 10.1002/про.250. ПМК  2788294 . ПМИД  19768809.
  2. ^ Хенрик, К.; и другие. (2008). «Исправление архива банка данных белков». Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D426–D433. дои : 10.1093/nar/gkm937. ПМК 2238854 . ПМИД  18073189. 
  3. ^ Брукс, Б.М.; и другие. (1983). «CHARMM: программа для расчета энергии, минимизации и динамики макромолекул». Дж. Компьютер. Хим . 4 (2): 187–217. дои : 10.1002/jcc.540040211. S2CID  91559650.
  4. ^ Вейнингер, Дэвид (1988). «SMILES, химический язык и информационная система: 1: Введение в методологию и правила кодирования». Журнал химической информации и моделирования . 28 (1): 31–36. дои : 10.1021/ci00057a005. S2CID  5445756.
  5. ^ Информационные системы MDL 2005
  6. ^ Домашняя страница Mol2mol
  7. ^ Домашняя страница Chemical MIME (по состоянию на 24 января 2013 г.)
  8. ^ Рзепа, HS; Мюррей-Раст, П.; Уитакер, Би Джей (1998). «Применение интернет-стандартов химических многоцелевых расширений Интернет-почты (Chemical MIME) к электронной почте и обмену информацией во Всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. doi : 10.1021/ci9803233.
  9. ^ «Результаты поиска пакетов для «chemical-mime» | Debian» .
  10. ^ «Зачем использовать SourceForge? Возможности и преимущества» .
  11. ^ Берман, HM; и другие. (2003). «Объявление о создании всемирного банка данных о белках». Структурная биология природы . 10 (12): 980. дои : 10.1038/nsb1203-980 . ПМИД  14634627.

Внешние ссылки