stringtranslate.com

Формат химического файла

Формат химического файла — это тип файла данных, который используется специально для отображения молекулярных данных. Одним из наиболее широко используемых является формат файла химической таблицы , который похож на файлы Structure Data Format (SDF) . Это текстовые файлы, которые представляют несколько записей химической структуры и связанных полей данных. Формат файла XYZ — это простой формат, который обычно дает количество атомов в первой строке, комментарий во второй, за которым следует количество строк с атомными символами (или атомными номерами) и декартовыми координатами. Формат Protein Data Bank обычно используется для белков, но также используется для других типов молекул. Существует много других типов, которые подробно описаны ниже. Для преобразования из одного формата в другой доступны различные программные системы.

Различение форматов

Химическая информация обычно предоставляется в виде файлов или потоков , и было создано много форматов с различной степенью документирования. Формат указывается тремя способами:
(см. § The Chemical MIME Project)

Химический язык разметки

Chemical Markup Language (CML) — открытый стандарт для представления молекулярных и других химических данных. Проект с открытым исходным кодом включает XML Schema, исходный код для анализа и работы с данными CML, а также активное сообщество. Статьи Tools for Working with Chemical Markup Language и XML for Chemistry and Biosciences обсуждают CML более подробно. Файлы данных CML принимаются многими инструментами, включая JChemPaint , Jmol , XDrawChem и MarvinView.

Формат банка данных по белкам

Формат Protein Data Bank — устаревший формат для структур белков, разработанный в 1972 году. [1] Это формат с фиксированной шириной , поэтому он ограничен максимальным количеством атомов, остатков и цепей; это привело к разделению очень больших структур, таких как рибосомы, на несколько файлов. Например, E. coli 70S был представлен в виде 4 файлов PDB в 2009 году: 3I1M Архивировано 05.10.2016 на Wayback Machine , 3I1N Архивировано 16.10.2016 на Wayback Machine , 3I1O и 3I1P. В 2014 году они были объединены в один файл 4V6C. В 2014 году формат PDB был официально заменен на mmCIF, и более новые структуры PDB могут не иметь доступных файлов PDB.

Некоторые файлы PDB содержали необязательный раздел, описывающий связность атомов, а также положение. Поскольку эти файлы иногда использовались для описания макромолекулярных сборок или молекул, представленных в явном растворителе , они могли становиться очень большими и часто сжимались. Некоторые инструменты, такие как Jmol и KiNG, [2] могли читать файлы PDB в сжатом формате gzip. wwPDB поддерживал спецификации формата файла PDB и его альтернативы XML, PDBML. В августе 2007 года произошло довольно серьезное изменение спецификации формата PDB (до версии 3.0), а также было устранено множество проблем с файлами в существующей базе данных. [3] Типичным расширением файла PDB было .pdb, хотя некоторые старые файлы использовали .entили .brk. Некоторые инструменты молекулярного моделирования создавали нестандартные файлы в стиле PDB, которые адаптировали базовый формат к своим собственным потребностям.

Формат GROMACS

Семейство форматов файлов GROMACS было создано для использования с программным пакетом молекулярного моделирования GROMACS . Он очень похож на формат PDB, но был разработан для хранения выходных данных моделирования молекулярной динамики , поэтому он обеспечивает дополнительную численную точность и опционально сохраняет информацию о скорости частиц , а также о положении в заданной точке траектории моделирования. Он не позволяет хранить информацию о связях, которая в GROMACS получается из отдельных файлов топологии молекул и систем. Типичное расширение файла для файла GROMACS — .gro.

Формат CHARMM

Пакет молекулярной динамики CHARMM [4] может читать и записывать ряд стандартных химических и биохимических форматов файлов; однако CARD (координатный) и PSF ( файл структуры белка ) в значительной степени уникальны для CHARMM. Формат CARD имеет фиксированную ширину столбцов, напоминает формат PDB и используется исключительно для хранения атомных координат. Файл PSF содержит информацию об атомных связях (которая описывает атомные связи) и требуется перед началом моделирования. Типичные используемые расширения файлов — .crdи .psfсоответственно.

Формат GSD

Формат файла General Simulation Data (GSD), созданный для эффективного чтения/записи общих симуляций частиц, в первую очередь, но не ограничиваясь ими, из HOOMD-blue. Пакет также содержит модуль python, который читает и записывает файлы gsd схемы HOOMD с простым в использовании синтаксисом.[1]

Формат файла Ghemical

Программное обеспечение Ghemical может использовать OpenBabel для импорта и экспорта ряда форматов файлов. Однако по умолчанию он использует формат GPR. Этот файл состоит из нескольких частей, разделенных тегом ( !Header, !Info, !Atoms, !Bonds, !Coord, !PartialChargesи !End).

Предлагаемый тип MIME для этого формата — application/x-ghemical .

Обозначение строки SYBYL

SYBYL Line Notation (SLN) — это химическая линейная нотация . Основанная на SMILES, она включает в себя полный синтаксис для указания относительной стереохимии. SLN имеет богатый синтаксис запросов, который позволяет указывать запросы структур Маркуша . Синтаксис также поддерживает спецификацию комбинаторных библиотек ChemDraw.

УЛЫБКИ

Упрощенная молекулярная система ввода строки , или SMILES, [5] — это линейная нотация для молекул. Строки SMILES включают связность, но не включают 2D или 3D координаты.

Атомы водорода не представлены. Другие атомы представлены символами своих элементов B, C, N, O, F, P, S, Cl, Br, и I. Символ =представляет двойные связи и #представляет тройные связи. Разветвление обозначено ( ). Кольца обозначены парами цифр.

Вот некоторые примеры:

XYZ

Формат файла XYZ — это простой формат, в котором в первой строке обычно указывается количество атомов, во второй — комментарий, за которым следует несколько строк с атомными символами (или атомными номерами) и декартовыми координатами.

Номер MDL

Номер MDL содержит уникальный идентификационный номер для каждой реакции и вариации. Формат — RXXXnnnnnnnn. R обозначает реакцию, XXX указывает, в какой базе данных содержится запись о реакции. Числовая часть, nnnnnnnn, представляет собой 8-значное число.

Другие распространенные форматы

Одним из наиболее широко используемых отраслевых стандартов являются форматы файлов химических таблиц , такие как файлы Structure Data Format (SDF). Это текстовые файлы, которые придерживаются строгого формата для представления нескольких записей химической структуры и связанных полей данных. Формат был первоначально разработан и опубликован Molecular Design Limited (MDL). MOL — еще один формат файла от MDL. Он задокументирован в Главе 4 CTfile Formats . [6]

PubChem также имеет форматы файлов XML и ASN1, которые являются вариантами экспорта из онлайн-базы данных PubChem. Они оба текстовые (ASN1 чаще всего является двоичным форматом).

В таблице ниже перечислено большое количество других форматов.

Конвертация между форматами

OpenBabel и JOELib — это свободно доступные инструменты с открытым исходным кодом, специально разработанные для преобразования между форматами файлов. Их химические экспертные системы поддерживают большие таблицы преобразования типов атомов.

obabel -i input_format input_file -o output_format output_file

Например, чтобы преобразовать файл epineftine.sdf из SDF в CML, используйте команду

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

Полученный файл — epineftine.cml.

IOData — это бесплатная библиотека Python с открытым исходным кодом для анализа, хранения и преобразования различных форматов файлов, обычно используемых в программах квантовой химии, молекулярной динамики и теории функционала плотности плоских волн. Она также поддерживает гибкую структуру для генерации входных файлов для различных пакетов программного обеспечения. Полный список поддерживаемых форматов см. на странице https://iodata.readthedocs.io/en/latest/formats.html.

Ряд инструментов, предназначенных для просмотра и редактирования молекулярных структур, способны читать файлы в ряде форматов и записывать их в других форматах. Инструменты JChemPaint (на основе Chemistry Development Kit ), XDrawChem (на основе OpenBabel ), Chime , Jmol , Mol2mol [7] [ требуется цитата ] и Discovery Studio попадают в эту категорию.

Химический проект MIME

«Химический MIME» — это фактический подход к добавлению типов MIME в химические потоки.

Этот проект стартовал в январе 1994 года и был впервые анонсирован во время семинара по химии на Первой международной конференции WWW, состоявшейся в ЦЕРНе в мае 1994 года. ... Первая версия интернет-проекта была опубликована в период с мая по октябрь 1994 года, а вторая пересмотренная версия — в период с апреля по сентябрь 1995 года. Доклад, представленный Комитету по печатным и электронным публикациям (CPEP) на заседании ИЮПАК в августе 1996 года, доступен для обсуждения. [8]

В 1998 году работа была официально опубликована в JCIM . [9]

Поддерживать

Для Linux/Unix файлы конфигурации доступны в виде пакета « chemical-mime-data » в форматах .deb , RPM и tar.gz для регистрации химических типов MIME на веб-сервере. [10] [11] Затем программы могут регистрироваться в качестве средств просмотра, редакторов или процессоров для этих форматов, чтобы обеспечить полную поддержку химических типов MIME.

Источники химических данных

Вот краткий список источников свободно доступных молекулярных данных. В Интернете есть гораздо больше ресурсов, чем перечислено здесь. Ссылки на эти источники приведены в списке ниже.

  1. База данных PubChem Национального института здравоохранения США — это огромный источник химических данных. Все данные двумерны. Данные включают форматы SDF, SMILES, PubChem XML и PubChem ASN1.
  2. Всемирный банк данных белков (wwPDB) [12] является прекрасным источником данных о молекулярных координатах белков и нуклеиновых кислот. Данные трехмерны и представлены в формате банка данных белков (PDB).
  3. eMolecules — это коммерческая база данных для молекулярных данных. Данные включают двумерную структурную диаграмму и строку улыбок для каждого соединения. eMolecules поддерживает быстрый поиск подструктуры на основе частей молекулярной структуры.
  4. ChemExper — это коммерческая база данных для молекулярных данных. Результаты поиска включают двумерную структурную диаграмму и файл молей для многих соединений.
  5. Библиотека трехмерных молекулярных структур Нью-Йоркского университета .
  6. Сеть баз данных токсичности с распределенной структурой и возможностью поиска (DSSTox) Агентства по охране окружающей среды США является проектом Программы вычислительной токсикологии Агентства по охране окружающей среды. База данных предоставляет молекулярные файлы SDF с акцентом на канцерогенные и иные токсичные вещества.

Смотрите также

Ссылки

  1. ^ wwPDB.org. "wwPDB: Формат файла". www.wwpdb.org . Получено 2024-06-13 .
  2. ^ Чен, В. Б.; и др. (2009). «KING (Kinemage, Next Generation): универсальная интерактивная программа молекулярной и научной визуализации». Protein Science . 18 (11): 2403–2409. doi :10.1002/pro.250. PMC 2788294 . PMID  19768809. 
  3. ^ Хенрик, К.; и др. (2008). «Исправление архива банка данных по белкам». Nucleic Acids Research . 36 ( выпуск базы данных): D426–D433. doi :10.1093/nar/gkm937. PMC 2238854. PMID  18073189. 
  4. ^ Брукс, Б. М. и др. (1983). «CHARMM: Программа для расчета энергии макромолекул, минимизации и динамики». J. Comput. Chem . 4 (2): 187–217. doi :10.1002/jcc.540040211. S2CID  91559650.
  5. ^ Вайнингер, Дэвид (1988). «SMILES, химический язык и информационная система: 1: Введение в методологию и правила кодирования». Журнал химической информации и моделирования . 28 (1): 31–36. doi :10.1021/ci00057a005. S2CID  5445756.
  6. ^ MDL Информационные Системы 2005
  7. ^ Домашняя страница Mol2mol
  8. ^ Домашняя страница Chemical MIME (дата обращения: 24 января 2013 г.)
  9. ^ Rzepa, HS; Murray-Rust, P.; Whitaker, BJ (1998). «Применение химических многоцелевых расширений интернет-почты (химических MIME) Интернет-стандартов к электронной почте и обмену информацией во всемирной паутине». Журнал химической информации и моделирования . 38 (6): 976. doi :10.1021/ci9803233.
  10. ^ "Результаты поиска пакетов для "chemical-mime" | Debian".
  11. ^ «Зачем использовать SourceForge? Возможности и преимущества».
  12. ^ Берман, Х. М.; и др. (2003). «Анонсирование всемирного банка данных по белкам». Nature Structural Biology . 10 (12): 980. doi : 10.1038/nsb1203-980 . PMID  14634627.

Внешние ссылки