Формат химического файла — это тип файла данных, который используется специально для отображения молекулярных данных. Одним из наиболее широко используемых является формат файла химической таблицы , который похож на файлы Structure Data Format (SDF) . Это текстовые файлы, которые представляют несколько записей химической структуры и связанных полей данных. Формат файла XYZ — это простой формат, который обычно дает количество атомов в первой строке, комментарий во второй, за которым следует количество строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат Protein Data Bank обычно используется для белков, но также используется для других типов молекул. Существует много других типов, которые подробно описаны ниже. Для преобразования из одного формата в другой доступны различные программные системы.
Химическая информация обычно предоставляется в виде файлов или потоков , и было создано много форматов с различной степенью документирования. Формат указывается тремя способами:
(см. § The Chemical MIME Project)
.mol
и .dat
используются многими системами, включая нехимические.Chemical Markup Language (CML) — открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML Schema, исходный код для анализа и работы с данными CML, а также активное сообщество. Статьи Tools for Working with Chemical Markup Language и XML for Chemistry and Biosciences обсуждают CML более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.
Формат Protein Data Bank — устаревший формат для структур белков, разработанный в 1972 году. [1] Это формат с фиксированной шириной , поэтому он ограничен максимальным количеством атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Например, E. coli 70S был представлен в виде 4 файлов PDB в 2009 году: 3I1M Архивировано 05.10.2016 на Wayback Machine , 3I1N Архивировано 16.10.2016 на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C. В 2014 году формат PDB был официально заменен на mmCIF, и более новые структуры PDB могут не иметь доступных файлов PDB.
Некоторые файлы PDB содержали необязательный раздел, описывающий связность атомов, а также положение. Поскольку эти файлы иногда использовались для описания макромолекулярных сборок или молекул, представленных в явном растворителе , они могли становиться очень большими и часто сжимались. Некоторые инструменты, такие как Jmol и KiNG, [2] могли читать файлы PDB в сжатом формате gzip. wwPDB поддерживал спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошло довольно серьезное изменение спецификации формата PDB (до версии 3.0), а также было устранено множество проблем с файлами в существующей базе данных. [3] Типичным расширением файла PDB было .pdb
, хотя некоторые старые файлы использовали .ent
или .brk
. Некоторые инструменты молекулярного моделирования создавали нестандартные файлы в стиле PDB, которые адаптировали базовый формат к своим собственным потребностям.
Семейство форматов файлов GROMACS было создано для использования с программным пакетом молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения выходных данных моделирования молекулярной динамики , поэтому он обеспечивает дополнительную численную точность и опционально сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и систем. Типичное расширение файла для файла GROMACS — .gro
.
Пакет молекулярной динамики CHARMM [4] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координатный) и PSF ( файл структуры белка ) в значительной степени уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, напоминает формат PDB и используется исключительно для хранения атомных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и требуется перед началом моделирования. Типичные используемые расширения файлов — .crd
и .psf
соответственно.
Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи общих симуляций частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue. Пакет также содержит модуль python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом.[1]
Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта ряда форматов файлов. Однако по умолчанию он использует формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header
, !Info
, !Atoms
, !Bonds
, !Coord
, !PartialCharges
и !End
).
Предлагаемый тип MIME для этого формата — application/x-ghemical .
SYBYL Line Notation (SLN) — это химическая линейная нотация . Основанная на SMILES, она включает в себя полный синтаксис для указания относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет указывать запросы структур Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.
Упрощенная молекулярная система ввода строки , или SMILES, [5] — это линейная нотация для молекул. Строки SMILES включают связность, но не включают 2D или 3D координаты.
Атомы водорода не представлены. Другие атомы представлены символами своих элементов B
, C
, N
, O
, F
, P
, S
, Cl
, Br
, и I
. Символ =
представляет двойные связи и #
представляет тройные связи. Разветвление обозначено ( )
. Кольца обозначены парами цифр.
Вот некоторые примеры:
Формат файла XYZ — это простой формат, в котором в первой строке обычно указывается количество атомов, во второй — комментарий, за которым следует несколько строк с атомными символами (или атомными номерами) и декартовыми координатами.
Номер MDL содержит уникальный идентификационный номер для каждой реакции и вариации. Формат — RXXXnnnnnnnn. R обозначает реакцию, XXX указывает, в какой базе данных содержится запись о реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.
Одним из наиболее широко используемых отраслевых стандартов являются форматы файлов химических таблиц , такие как файлы Structure Data Format (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных полей данных. Формат был первоначально разработан и опубликован Molecular Design Limited (MDL). MOL — еще один формат файла от MDL. Он задокументирован в Главе 4 CTfile Formats . [6]
PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Они оба текстовые (ASN1 чаще всего является двоичным форматом).
В таблице ниже перечислено большое количество других форматов.
OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.
obabel -i input_format input_file -o output_format output_file
Например, чтобы преобразовать файл epineftine.sdf из SDF в CML, используйте команду
obabel -i sdf epinephrine.sdf -o cml epinephrine.cml
Полученный файл — epineftine.cml.
IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и теории функционала плотности плоских волн. Она также поддерживает гибкую структуру для генерации входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов см. на странице https://iodata.readthedocs.io/en/latest/formats.html.
Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в ряде форматов и записывать их в других форматах. Инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol [7] [ требуется цитата ] и Discovery Studio попадают в эту категорию.
«Химический MIME» — это фактический подход к добавлению типов MIME в химические потоки.
Этот проект стартовал в январе 1994 года и был впервые анонсирован во время семинара по химии на Первой международной конференции WWW, состоявшейся в ЦЕРНе в мае 1994 года. ... Первая версия интернет-проекта была опубликована в период с мая по октябрь 1994 года, а вторая пересмотренная версия — в период с апреля по сентябрь 1995 года. Доклад, представленный Комитету по печатным и электронным публикациям (CPEP) на заседании ИЮПАК в августе 1996 года, доступен для обсуждения. [8]
В 1998 году работа была официально опубликована в JCIM . [9]
Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [10] [11] Затем программы могут регистрироваться в качестве средств просмотра, редакторов или процессоров для этих форматов, чтобы обеспечить полную поддержку химических типов MIME.
Вот краткий список источников свободно доступных молекулярных данных. В Интернете есть гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в списке ниже.