stringtranslate.com

Формат данных масс-спектрометрии

Масс-спектрометрия — это научный метод измерения отношения массы к заряду ионов. Он часто сочетается с хроматографическими методами, такими как газовая или жидкостная хроматография , и нашел широкое применение в областях аналитической химии и биохимии , где его можно использовать для идентификации и характеристики малых молекул и белков ( протеомика ). Большой объем данных, получаемых в типичном эксперименте по масс-спектрометрии, требует использования компьютеров для хранения и обработки данных. За прошедшие годы различные производители масс-спектрометров разработали различные фирменные форматы данных для обработки таких данных, что затрудняет для академических ученых прямую обработку своих данных. Для устранения этого ограничения Trans-Proteomic Pipeline в Институте системной биологии недавно разработал несколько открытых форматов данных на основе XML для упрощения обработки данных и инноваций в государственном секторе. [1] Эти форматы данных описаны здесь.

Открытые форматы

JCAMP-DX

Этот формат был одной из самых ранних попыток предоставить стандартизированный формат файла для обмена данными в масс-спектрометрии. JCAMP-DX изначально был разработан для инфракрасной спектрометрии. JCAMP-DX — это формат на основе ASCII , поэтому он не очень компактен, хотя и включает стандарты для сжатия файлов. JCAMP был официально выпущен в 1988 году. [2] Совместно с Американским обществом масс-спектрометрии был разработан формат JCAMP-DX для масс-спектрометрии с целью сохранения устаревших данных. [3]

ANDI-MS или netCDF

Формат обмена аналитическими данными для масс-спектрометрии — это формат для обмена данными. Многие пакеты программного обеспечения для масс-спектрометрии могут читать или записывать файлы ANDI. ANDI указан в стандарте ASTM E1947. [4] ANDI основан на netCDF , который является библиотекой программных инструментов для записи и чтения файлов данных. ANDI изначально был разработан для данных хроматографии-МС и поэтому не использовался в золотой лихорадке протеомики , когда были разработаны новые форматы на основе XML . [5]

AnIML

AnIML — это совместный проект IUPAC и ASTM International по созданию стандарта на основе XML, охватывающего широкий спектр аналитических методов, включая масс-спектрометрию. [6]

mzData

mzData был первой попыткой Инициативы по стандартам протеомики (PSI) из Организации протеома человека (HUPO) создать стандартизированный формат для данных масс-спектрометрии. [7] Этот формат в настоящее время устарел и заменен на mzML. [8]

mzXML

mzXML — это общий формат файлов на основе XML (расширяемый язык разметки) для масс-спектрометрических данных протеомики . [9] [10] Этот формат был разработан в Сиэтлском центре протеома/Институте системной биологии, когда HUPO-PSI пытался определить стандартизированный формат mzData, и до сих пор используется в сообществе протеомики.

ЯФМС

Y et A nother Format for Mass S ectrometry (YAFMS) — это предложение сохранять данные в четырехтабличной реляционной схеме базы данных без сервера , при этом извлечение и добавление данных осуществляется с помощью SQL- запросов. [11]

mzML

Поскольку два формата (mzData и mzXML) для представления одной и той же информации являются нежелательным состоянием, HUPO-PSI, SPC/ISB и поставщики инструментов предприняли совместные усилия по созданию единого стандарта, заимствующего лучшие аспекты mzData и mzXML и призванного заменить их. Первоначально названный dataXML, он был официально анонсирован как mzML. [12] Первая спецификация была опубликована в июне 2008 года. [13] Этот формат был официально выпущен на встрече Американского общества масс-спектрометрии 2008 года и с тех пор является относительно стабильным с очень небольшим количеством обновлений. 1 июня 2009 года был выпущен mzML 1.1.0. По состоянию на 2013 год никаких дальнейших изменений не запланировано.

mzAPI

Вместо определения новых форматов файлов и написания конвертеров для форматов фирменных поставщиков группа ученых предложила определить общий интерфейс прикладной программы , чтобы переложить бремя соответствия стандартам на существующие библиотеки доступа к данным производителей приборов. [14]

mz5

Формат mz5 решает проблемы производительности предыдущих форматов на основе XML. Он использует онтологию mzML, но сохраняет данные с помощью бэкэнда HDF5 для снижения требований к пространству хранения и повышения скорости чтения/записи. [15]

imzML

Стандарт imzML был предложен для обмена данными масс-спектрометрической визуализации в стандартизированном XML-файле на основе онтологии mzML. Он разделяет экспериментальные данные на XML и спектральные данные в двоичном файле. Оба файла связаны универсальным уникальным идентификатором . [16]

mzDB

mzDB сохраняет данные в базе данных SQLite , что позволяет экономить дисковое пространство и сокращать время доступа, поскольку точки данных можно запрашивать из реляционной базы данных . [17]

Ириска

Toffee — это открытый формат файла без потерь для масс-спектрометрии с независимым от данных сбором данных . Он использует HDF5 и нацелен на достижение размеров файлов, аналогичных размерам файлов в закрытых и фирменных форматах поставщиков. [18]

mzMLb

mzMLb — это еще один подход к использованию бэкэнда HDF5 для эффективного сохранения необработанных данных. Однако он сохраняет структуру данных mzML XML и остается совместимым с существующим стандартом. [19]

Собственные форматы

Ниже приведена таблица различных расширений форматов файлов.

(*) Обратите внимание, что форматы RAW каждого поставщика не являются взаимозаменяемыми; программное обеспечение одного поставщика не может обрабатывать файлы RAW другого поставщика.
(**) Micromass была приобретена Waters в 1997 году
(***) Finnigan является подразделением Thermo

Программное обеспечение

Зрители

Существует несколько просмотрщиков для mzXML, mzML и mzData. Эти просмотрщики бывают двух типов: Free Open Source Software (FOSS) или Proprietary.

В категории FOSS-просмотрщиков можно найти MZmine, [20] mineXpert2 (mzXML, mzML, собственный timsTOF, xy, MGF, BafAscii) [21] MS-Spectre, [22] TOPPView (mzXML, mzML и mzData), [23] Spectra Viewer, [24] SeeMS, [25] msInspect, [26] jmzML. [27]

В категории фирменных товаров можно найти PEAKS, [28] Insilicos , [29] Mascot Distiller, [30] Elsci Peaksel. [31]

Существует просмотрщик для изображений ITA. [32] Изображения ITA и ITM можно анализировать с помощью библиотеки Python pySPM. [33]

Конвертеры

Известные конвертеры mzData в mzXML:

Hermes: Java-конвертер «mzData, mzXML, mzML» во всех направлениях: общедоступный, работает с графическим пользовательским интерфейсом, разработан Институтом молекулярной системной биологии, Швейцарская высшая техническая школа Цюриха [34] [35]
FileConverter: инструмент командной строки, который преобразует в/из различных форматов масс-спектрометрии, [36] часть TOPP [37]

Известные конвертеры для mzXML:

Институт системной биологии ведет список преобразователей [38]

Известные конвертеры для mzML:

msConvert: [39] [40] Инструмент командной строки для конвертации в/из различных форматов масс-спектрометрии. Для пользователей Windows также доступен графический интерфейс.
ReAdW: [41] Конвертер командной строки Института системной биологии для файлов Thermo RAW, часть TransProteomicPipeline. [42] Последнее обновление этого инструмента было сделано в сентябре 2009 года. Теперь пользователи перенаправляются командой разработчиков TPP на использование программного обеспечения msConvert (см. выше).
FileConverter: инструмент командной строки, который преобразует в/из различных форматов масс-спектрометрии, [36] часть TOPP [37]

Конвертеры для фирменных форматов:

msConvert: [39] [40] Инструмент командной строки для конвертации в/из различных форматов масс-спектрометрии, включая несколько фирменных форматов. Для пользователей Windows также доступен графический интерфейс.
CompassXport, бесплатный инструмент компании Bruker, генерирующий файлы mzXML (а теперь и mzData) [ требуется ссылка ] для многих их собственных форматов файлов (.baf).
MASSTransit, программное обеспечение для обмена данными между собственными форматами, разработанное Palisade Corporation и распространяемое Scientific Instrument Services, Inc [43] и PerkinElmer . [44] Приобретено у Palisade компанией John Wiley and Sons в 2020 году и включено в программное обеспечение KnowItAll Spectroscopy (список поддерживаемых форматов файлов).
Aston, [45] встроенная поддержка нескольких форматов файлов Agilent Chemstation, Agilent Masshunter и Thermo Isodat
unfinnigan, [46] встроенная поддержка форматов файлов Finnigan (*.RAW)
OpenChrom , программное обеспечение с открытым исходным кодом, поддерживающее преобразование различных собственных форматов файлов, включая собственный открытый формат .ocb для хранения хроматограмм, пиков и результатов идентификации [47]

В настоящее время доступны следующие конвертеры:

MassWolf, для формата Micromass MassLynx .Raw
mzStar, для формата SCIEX / ABI SCIEX/ABI Analyst
wiff2dta [48] для SCIEX / ABI SCIEX/ABI Analyst формат в mzXML, DTA, MGF и PMF

Смотрите также

Ссылки

  1. ^ Deutsch EW (декабрь 2012 г.). «Форматы файлов, обычно используемые в масс-спектрометрической протеомике». Молекулярная и клеточная протеомика . 11 (12): 1612–21. doi : 10.1074/mcp.R112.019695 . PMC  3518119. PMID  22956731 .
  2. ^ Макдональд, Роберт С.; Уилкс, Пол А. (1988). "JCAMP-DX: Стандартная форма для обмена инфракрасными спектрами в компьютерно-читаемой форме" (PDF) . Прикладная спектроскопия . 42 (1): 151–162. Bibcode :1988ApSpe..42..151M. doi :10.1366/0003702884428734.
  3. ^ Лампен П., Хиллиг Х., Дэвис А.Н., Линшайд М. (декабрь 1994 г.). «JCAMP-DX для масс-спектрометрии». Прикладная спектроскопия . 48 (12): 1545–52. Бибкод : 1994ApSpe..48.1545L. дои : 10.1366/0003702944027840. S2CID  96773027.
  4. ^ ASTM E1947 – 98(2009) Стандартная спецификация для протокола обмена аналитическими данными для хроматографических данных
  5. ^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L и др. (январь 2014 г.). «Контролируемые словари и онтологии в протеомике: обзор, принципы и практика». Biochimica et Biophysica Acta (BBA) - Белки и протеомика . 1844 (1 Pt A): 98–107. doi : 10.1016/j.bbapap.2013.02.017 . PMC 3898906. PMID  23429179 . 
  6. ^ Дэвис, Тони (2007). «Выпас AnIML (нет, это не орфографическая ошибка): Обновление о сотрудничестве IUPAC и ASTM по стандартам аналитических данных». Chemistry International . 29 (6).
  7. ^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N и др. (октябрь 2007 г.). "Пять лет прогресса в стандартизации данных протеомики. 4-й ежегодный весенний семинар Инициативы по стандартам протеомики HUPO, 23–25 апреля 2007 г., Высшая национальная школа (ENS), Лион, Франция". Proteomics . 7 (19): 3436–40. doi :10.1002/pmic.200700658. PMID  17907277. S2CID  22837325.
  8. ^ "mzData". HUPO-PSI. Архивировано из оригинала 7 июля 2018 г. Получено 26 апреля 2021 г.
  9. ^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B и др. (ноябрь 2004 г.). «Общее открытое представление данных масс-спектрометрии и его применение в исследованиях протеомики». Nature Biotechnology . 22 (11): 1459–66. doi :10.1038/nbt1031. PMID  15529173. S2CID  25734712.
  10. ^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (декабрь 2005 г.). «Для чего нужен mzXML?». Expert Review of Proteomics . 2 (6): 839–45. doi :10.1586/14789450.2.6.839. PMID  16307524. S2CID  24914725.
  11. ^ Shah AR, Davidson J, Monroe ME, Mayampurath AM, Danielson WF, Shi Y и др. (октябрь 2010 г.). «Эффективный формат данных для протеомики на основе масс-спектрометрии». Журнал Американского общества масс-спектрометрии . 21 (10): 1784–8. doi : 10.1016/j.jasms.2010.06.014 . PMID  20674389.
  12. ^ "mzML". HUPO-Proteomics Standards Initiative . Получено 19 апреля 2013 г.
  13. ^ Deutsch E (июль 2008 г.). «mzML: единый унифицированный формат данных для выходных данных масс-спектрометра». Протеомика . 8 (14): 2776–7. doi : 10.1002/pmic.200890049 . PMID  18655045. S2CID  28297899.
  14. ^ Аскенэзи М, Парих Дж. Р., Марто Дж. А. (апрель 2009 г.). «mzAPI: новая стратегия эффективного обмена данными масс-спектрометрии». Nature Methods . 6 (4): 240–1. doi :10.1038/nmeth0409-240. PMC 2691659 . PMID  19333238. 
  15. ^ Wilhelm M, Kirchner M, Steen JA, Steen H (январь 2012 г.). "mz5: эффективное с точки зрения пространства и времени хранение наборов данных масс-спектрометрии". Молекулярная и клеточная протеомика . 11 (1): O111.011379. doi : 10.1074/mcp.O111.011379 . PMC 3270111. PMID 21960719  . 
  16. ^ Schramm T, Hester Z, Klinkert I, Both JP, Heeren RM, Brunelle A и др. (август 2012 г.). "imzML — общий формат данных для гибкого обмена и обработки данных масс-спектрометрических изображений" (PDF) . Journal of Proteomics . 75 (16): 5106–5110. doi :10.1016/j.jprot.2012.07.026. PMID  22842151. S2CID  25970597.
  17. ^ Bouyssié D, Dubois M, Nasso S, Gonzalez de Peredo A, Burlet-Schiltz O, Aebersold R, Monsarrat B (март 2015 г.). "mzDB: формат файла, использующий несколько стратегий индексации для эффективного анализа больших наборов данных LC-MS/MS и SWATH-MS". Molecular & Cellular Proteomics . 14 (3): 771–81. doi : 10.1074/mcp.O114.039115 . PMC 4349994 . PMID  25505153. 
  18. ^ Tully B (июнь 2020 г.). «Toffee – высокоэффективный формат файла без потерь для DIA-MS». Scientific Reports . 10 (1): 8939. Bibcode :2020NatSR..10.8939T. doi : 10.1038/s41598-020-65015-y . PMC 7265431 . PMID  32488104. 
  19. ^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (январь 2021 г.). «mzMLb: перспективный формат необработанных данных масс-спектрометрии на основе соответствующего стандартам mzML, оптимизированный для требований скорости и хранения». Journal of Proteome Research . 20 (1): 172–183. doi : 10.1021/acs.jproteome.0c00192. PMC 7871438. PMID  32864978 . 
  20. ^ "Сайт MZmine".
  21. ^ "сайт mineXpert2".
  22. ^ "Веб-сайт MS-Spectre". Ms-spectre.sourceforge.net . Получено 29 ноября 2011 г. .
  23. ^ "Сайт OpenMS и TOPP". Open-ms.sourceforge.net . Получено 29 ноября 2011 г. .
  24. ^ "Просмотрщик с открытым исходным кодом, разработанный в рамках академических проектов". Staff.icar.cnr.it . Получено 29 ноября 2011 г.
  25. ^ "Просмотрщик с открытым исходным кодом, разработанный Мэттом Чемберсом в Вандербильте". Proteowizard.sourceforge.net . Получено 29 ноября 2011 г. .
  26. ^ "Просмотрщик с открытым исходным кодом, разработанный в онкологическом центре Фреда Хатчинсона". Proteomics.fhcrc.org . Получено 29 ноября 2011 г.
  27. ^ "jmzML" . Получено 29 ноября 2011 г. .
  28. ^ "BSI: PEAKS website". Bioinfor.com . Получено 29 ноября 2011 г. .
  29. ^ "Insilicos website". Архивировано из оригинала 20 декабря 2014 года . Получено 28 марта 2020 года .
  30. ^ Matrix Science Limited. "Коммерческое программное обеспечение с бесплатным режимом просмотра для mzXML и многих фирменных форматов". Matrixscience.com . Получено 29 ноября 2011 г.
  31. ^ «Peaksel — программное обеспечение для чтения и обработки фирменных и открытых форматов ВЭЖХ».
  32. ^ "ITAviewer онлайн".
    "Источник ITAviewer". GitHub . 9 ноября 2017 г.
  33. ^ "сайт pySPM". GitHub . 17 июня 2022 г.
  34. Hermes Архивировано 3 марта 2016 г. на Wayback Machine
  35. ^ "Сайт Hermes". Icecoffee.ch . Получено 29 ноября 2011 г. .
  36. ^ ab "FileConverter". Open-ms.sourceforge.net . Получено 29 ноября 2011 г. .
  37. ^ ab TOPP Архивировано 15 апреля 2008 г. на Wayback Machine
  38. ^ "mzXML" . Получено 30 июня 2008 г. .
  39. ^ ab "msconvert". ProteoWizard . Получено 20 апреля 2013 г. .
  40. ^ ab "ProteoWizard" . Получено 20 апреля 2013 г.
  41. ^ "ReAdW". Tools.proteomecenter.org . Получено 29 ноября 2011 г. .
  42. ^ "TransProteomicPipeline". Tools.proteomecenter.org. 25 мая 2011 г. Получено 29 ноября 2011 г.
  43. ^ MASSTransit от Palisade Архивировано 9 мая 2008 г. на Wayback Machine
  44. ^ "Газовая хроматография (ГХ)". PerkinElmer . Получено 29 ноября 2011 г. .
  45. ^ aston – Программное обеспечение с открытым исходным кодом для хроматографии и масс-спектрометрии – Хостинг проектов Google
  46. ^ unfinnigan – Безболезненное извлечение масс-спектров из «сырых» файлов Thermo – Хостинг проектов Google
  47. ^ Dąbrowski Ł (7 августа 2015 г.). «Обзор бесплатного программного обеспечения для обработки данных в хроматографии». Mediterranean Journal of Chemistry . 4 (4): 193–200. doi : 10.13171/mjc.4.4.2015.15.09.16.35/dabrowski .
  48. ^ wiff2dta на sourceforge