stringtranslate.com

MPEG-G

MPEG-G (ISO/IEC 23092) — это стандарт ISO/IEC , разработанный для представления геномной информации в результате сотрудничества ISO/IEC JTC 1/SC 29 /WG 9 ( MPEG ) и рабочей группы 5 ISO TC 276 «Биотехнология». Целью стандарта является предоставление совместимых решений для хранения, доступа и защиты данных в различных возможных реализациях для информации о данных, генерируемой высокопроизводительными машинами для секвенирования, и их последующей обработки и анализа. [1] [2] Стандарт состоит из различных частей, каждая из которых касается определенного аспекта, такого как сжатие, ассоциация метаданных, интерфейсы прикладного программирования ( API ) и эталонное программное обеспечение для декодирования данных. Вместе с эталонным программным обеспечением декодера в 2019 году стали доступны коммерческие реализации и реализации с открытым исходным кодом [3] , охватывающие все больше опубликованных частей стандарта.

Фон

Появление технологий высокопроизводительного секвенирования (HTS) произвело революцию в области количественной биологии. Доступность больших коллекций геномной информации сегодня вошла в повседневную практику и стала краеугольным камнем ряда дисциплин, начиная от биологических исследований и заканчивая персонализированной медициной в клинике. На данный момент обмен геномной информацией в основном осуществляется через различные форматы данных, такие как FASTA / FASTQ для невыровненных чтений секвенирования и SAM / BAM / CRAM для выровненных чтений. Стандарт ISO/IEC 23092 (MPEG-G) направлен на обеспечение унифицированного формата для эффективного представления и сжатия таких разнообразных данных как для хранения файлов, так и для транспортировки данных. Для этого стандарт разделен на несколько частей.

Структура стандарта

Стандарт MPEG-G использует технологии и архитектуры представления данных, ранее проверенные в области цифровых медиа. Они позволяют сжимать и транспортировать данные секвенирования генома даже в сложных сценариях, например, когда необходим доступ к большим объемам возможно распределенных данных или когда часть данных необходимо зашифровать по соображениям конфиденциальности. Концептуально такие требования приводят к определению ряда взаимосвязанных механизмов, которые сведены в следующий список:

В свою очередь, некоторые из этих тем были собраны вместе, чтобы облегчить понимание и внедрение стандарта. В результате стандарт ISO/IEC 23092 физически структурирован как серия отдельных документов следующим образом:

ISO/IEC 23092-1 MPEG-G, часть 1

ISO/IEC 23092-1 определяет, как геномные данные организуются в структурах MPEG-G для транспортировки (т. е. потоковой передачи) и хранения. В этой части определены форматы геномной записи, эталонной записи, файла MPEG-G и транспортного потока. Он представляет Access Unit как контейнер сжатых геномных данных и обеспечивает процесс преобразования ссылок между различными форматами.

ISO/IEC 23092-2 MPEG-G, часть 2

ISO/IEC 23092-2 определяет синтаксис и методы сжатия MPEG-G без потерь данных секвенирования и сжатия с потерями связанных показателей качества. MPEG-G, как это типично для стандартов MPEG, определяет только процесс декодирования, в то время как процесс кодирования остается открытым для алгоритмических и специфичных для реализации инноваций. Все декодеры, соответствующие стандарту MPEG-G, выдают идентичные выходные данные из мультиплексированных битовых потоков, включенных в файлы MPEG-G, и потоков данных в сценариях потоковой передачи.

Входными данными кодера являются геномные записи или метаданные с дополнительными справочными данными, а выходными данными являются файлы MPEG-G или транспортные потоки.

ISO/IEC 23092-3 MPEG-G, часть 3

ISO/IEC 23092-3 определяет формат метаданных и предоставляет API-интерфейсы представления геномных данных для поддержки взаимодействия существующих инструментов и систем. Часть 3 определяет, как битовый поток, совместимый с MPEG-G, может быть интегрирован с метаданными, а также механизмы реализации контроля доступа, проверки целостности, механизмов аутентификации и авторизации. Эта часть также содержит информационный раздел, посвященный сопоставлению структур данных SAM и MPEG-G, включая обратную совместимость с существующим контентом SAM . Он определяет:

ISO/IEC 23092-4 MPEG-G, часть 4

ISO/IEC 23092-4 [9] определяет справочное программное обеспечение для представления геномной информации, называемое геномной моделью (GM). Он состоит из двух компонентов: программного обеспечения эталонного кодера и программного обеспечения эталонного декодера. Хотя программное обеспечение эталонного декодера предоставляется для оценки соответствия требованиям ISO/IEC 23092-1, [4] ISO/IEC 23092-2 [5] и ISO/IEC 23092-6, [7], программное обеспечение эталонного кодера служит в качестве руководства по внедрению вышеупомянутых стандартов. Программное обеспечение эталонного кодировщика под названием Genie [3] представляет собой программное обеспечение с открытым исходным кодом, разработанное группой людей из множества университетов и компаний по всему миру. Он включает в себя следующие компоненты:

ISO/IEC 23092-5 MPEG-G, часть 5

ISO/IEC 23092-5 определяет соответствие кодирования геномной информации. Часть 5 предоставляет средства для тестирования и проверки правильности реализации технологии MPEG-G в различных устройствах и приложениях для обеспечения совместимости всех систем. Он определяет нормативную процедуру оценки соответствия стандарту на исчерпывающем наборе сжатых данных.

Расширения типа MIME и имени файла

В настоящее время для файла MPEG-G не определен тип MIME (тип носителя IANA на основе RFC 6838).

Никакие традиционные расширения файлов не определены.

Смотрите также

Рекомендации

  1. ^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Рибека, Паоло; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (октябрь 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv : 426353. doi : 10.1101/426353. S2CID  53606895.
  2. ^ Эрнаес, Микель; Павличин Дмитрий; Вайсман, Цахи; Очоа, Идоя (20 июля 2019 г.). «Сжатие геномных данных». Ежегодный обзор биомедицинских данных . 2 (1): 19–37. doi : 10.1146/annurev-biodatasci-072018-021229 . ISSN  2574-3414. S2CID  88495878.
  3. ^ ab «Genie, кодек MPEG-G с открытым исходным кодом». Гитхаб . 22 июня 2021 г.
  4. ^ abcdefg «ISO/IEC 23092-1 Транспортировка и хранение геномной информации».
  5. ^ abcd «ISO/IEC 23092-2 Кодирование геномной информации».
  6. ^ abcd «Метаданные и API ISO/IEC 23092-3».
  7. ^ abc «ISO/IEC 23092-6 Кодирование геномных аннотаций».
  8. ^ Блисс, Брайан; Аллен, Джошуа; Бахети, Саураб; Бокол, Мэтью; Дельгадо, Хайме; Фостиер, Ян; Гельпи, Хосеп; Харт, Стивен; Эрнаес, Микель; Хадсон, Мэтью; Кальмбах, Майкл; Клее, Эрик; Майнцер, Людмила; Мюнтеферинг, Фабиан; Наро, Дэниел; Очоа, Идоя; Остерманн, Йорн; Паридаенс, Том; Росс, Кристиан; Фогес, Ян; Вибен, Эрик; Ян, Мингю; Вайсман, Цахи; Виперт, Матье (ноябрь 2019 г.). Genie: совместимое с MPEG-G программное обеспечение для сжатия геномных данных (PDF) . sc19.supercomputing.org . дои : 10.1101/426353.
  9. ^ ab «Справочное программное обеспечение ISO / IEC 23092-4» .
  10. ^ «Соответствие ISO/IEC 23092-5» .

Внешние ссылки