Формат химического файла — это тип файла данных, который используется специально для изображения молекулярных данных. Одним из наиболее широко используемых является формат файлов химических таблиц , который аналогичен файлам формата структурных данных (SDF) . Это текстовые файлы, которые представляют собой несколько записей химической структуры и связанных с ними полей данных. Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат банка данных белков обычно используется для белков, но также используется и для других типов молекул. Есть много других типов, которые подробно описаны ниже. Доступны различные программные системы для преобразования из одного формата в другой.
Химическая информация обычно предоставляется в виде файлов или потоков , и было создано множество форматов с различной степенью документирования. Формат указывается тремя способами:
(см. § Проект Chemical MIME)
.mol
и, .dat
используются во многих системах, в том числе нехимических.Язык химической разметки (CML) — это открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML-схему, исходный код для анализа и работы с данными CML, а также активное сообщество. В статьях «Инструменты для работы с языком химической разметки и XML для химии и биологических наук» ХМЛ обсуждается более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.
Формат банка данных белков обычно используется для белков, но его можно использовать и для других типов молекул. Первоначально он был разработан и продолжает оставаться форматом с фиксированной шириной столбца и, таким образом, официально имеет встроенное максимальное количество атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Однако многие инструменты могут читать файлы, размер которых превышает эти ограничения. Например, рибосома E. coli 70S в 2009 году была представлена в виде 4 PDB-файлов: 3I1M, заархивировано 5 октября 2016 г. на Wayback Machine , 3I1N, заархивировано 16 октября 2016 г. на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C.
Некоторые файлы PDB содержат дополнительный раздел, описывающий соединение атомов, а также их положение. Поскольку эти файлы иногда используются для описания макромолекулярных ансамблей или молекул, представленных в явном растворителе , они могут вырасти до очень больших размеров и часто сжимаются. Некоторые инструменты, такие как Jmol и KiNG [1] , могут читать файлы PDB в формате gzip. wwPDB поддерживает спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошли довольно серьезные изменения в спецификации формата PDB (до версии 3.0), а также были устранены многие проблемы с файлами в существующей базе данных. [2] Типичное расширение файла PDB — .pdb
, хотя в некоторых старых файлах используется .ent
или .brk
. Некоторые инструменты молекулярного моделирования пишут нестандартные файлы в стиле PDB, которые адаптируют базовый формат к своим потребностям.
Семейство форматов файлов GROMACS было создано для использования с пакетом программного обеспечения для молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения результатов моделирования молекулярной динамики , поэтому обеспечивает дополнительную числовую точность и при необходимости сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и системы. Типичное расширение файла GROMACS — .gro
.
Пакет молекулярной динамики CHARMM [3] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координата) и PSF ( файл структуры белка ) во многом уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, похож на формат PDB и используется исключительно для хранения атомарных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и необходим перед началом моделирования. Типичные используемые расширения файлов: .crd
и .psf
соответственно.
Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи типовых моделей частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue. Пакет также содержит модуль Python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом.[1]
Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта файлов различных форматов. Однако по умолчанию используется формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header
, !Info
, !Atoms
, !Bonds
, и ).!Coord
!PartialCharges
!End
Предлагаемый тип MIME для этого формата — application/x-ghhemical .
SYBYL Line Notation (SLN) — это химическая линия обозначения . Основанный на SMILES, он включает в себя полный синтаксис для определения относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет специфицировать запросы структуры Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.
Упрощенная система ввода строк молекулярного ввода , или SMILES, [4] представляет собой строковое обозначение молекул. Строки SMILES включают связность, но не включают 2D- или 3D-координаты.
Атомы водорода не представлены. Другие атомы представлены символами своих элементов B
, C
, N
, O
, F
, P
, , , и S
. Символ обозначает двойные связи и тройные связи. Ветвление обозначается . Кольца обозначаются парами цифр.Cl
Br
I
=
#
( )
Некоторые примеры:
Формат файла XYZ — это простой формат, который обычно указывает количество атомов в первой строке, комментарий ко второй, за которым следует ряд строк с атомными символами (или атомными номерами) и декартовыми координатами.
Номер MDL содержит уникальный идентификационный номер для каждой реакции и варианта. Формат: RXXXnnnnnnnn. R указывает на реакцию, XXX указывает, какая база данных содержит запись реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.
Одним из наиболее широко используемых отраслевых стандартов являются форматы файлов химических таблиц , такие как файлы формата структурных данных (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных с ними полей данных. Формат был первоначально разработан и опубликован компанией Molecular Design Limited (MDL). MOL — это еще один формат файлов MDL. Это описано в Главе 4 Форматов CTfile . [5]
PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Оба они основаны на тексте (ASN1 чаще всего представляет собой двоичный формат).
В таблице ниже указано большое количество других форматов.
OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.
obabel -i input_format input_file -o output_format output_file
Например, чтобы преобразовать файл эпинефрин.sdf из SDF в CML, используйте команду
obabel -i sdf epinephrine.sdf -o cml epinephrine.cml
Полученный файл — эпинефрин.cml.
IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и программ по теории функционала плотности плоских волн. Он также поддерживает гибкую структуру для создания входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов можно найти по адресу https://iodata.readthedocs.io/en/latest/formats.html.
Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в различных форматах и записывать их в других форматах. В эту категорию подходят инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol [ 6] и Discovery Studio .
«Химический MIME» — это фактический подход для добавления типов MIME к химическим потокам.
Этот проект начался в январе 1994 года и впервые был анонсирован на семинаре по химии на Первой Международной конференции WWW, состоявшейся в ЦЕРН в мае 1994 года. ... Первая версия интернет-проекта была опубликована в мае – октябре 1994 года, а вторая пересмотренная версия в апреле – сентябре 1995 г. Документ, представленный CPEP (Комитету по печатным и электронным публикациям) на заседании ИЮПАК в августе 1996 г., доступен для обсуждения. [7]
В 1998 году работа была официально опубликована в JCIM . [8]
Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [9] [10] Затем программы могут регистрироваться в качестве просмотра, редактора или процессора для этих форматов, чтобы была доступна полная поддержка химических типов MIME.
Вот краткий список источников свободно доступных молекулярных данных. В Интернете существует гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в ссылках ниже.