Сжатие данных геномного секвенирования

Высокопроизводительные технологии секвенирования привели к резкому снижению затрат на секвенирование генома и к удивительно быстрому накоплению геномных данных. Эти технологии позволяют проводить амбициозные проекты по секвенированию генома, такие как 1000 Genomes Project и 1001 ( Arabidopsis thaliana ) Genomes Project. Хранение и передача огромного количества геномных данных стали основной проблемой, мотивируя разработку высокопроизводительных инструментов сжатия, специально предназначенных для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными геномного повторного секвенирования подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия

В то время как стандартные инструменты сжатия данных (например, zip и rar) используются для сжатия данных последовательностей (например, база данных плоских файлов GenBank ), этот подход подвергается критике как экстравагантный, поскольку геномные последовательности часто содержат повторяющийся контент (например, микросателлитные последовательности) или многие последовательности демонстрируют высокий уровень сходства (например, несколько геномных последовательностей одного и того же вида). Кроме того, статистические и информационно-теоретические свойства геномных последовательностей могут потенциально использоваться для сжатия данных секвенирования. ^[1]^[2]^[3]

Базовые варианты

При наличии эталонного шаблона необходимо регистрировать только различия (например, замены и вставки/делеции отдельных нуклеотидов), что значительно сокращает объем хранимой информации. Понятие относительного сжатия очевидно, особенно в проектах по повторному секвенированию генома, где целью является обнаружение вариаций в отдельных геномах. Использование эталонной карты полиморфизма отдельных нуклеотидов ( SNP ), такой как dbSNP , может быть использовано для дальнейшего улучшения количества вариантов для хранения. ^[4]

Относительные геномные координаты

Другая полезная идея — хранить относительные геномные координаты вместо абсолютных координат. ^[4] Например, представляя варианты последовательностей оснований в формате « Position1Base1Position2Base2… », «123C125T130G» можно сократить до «0C2T5G», где целые числа представляют интервалы между вариантами. Стоимость — это скромные арифметические вычисления, необходимые для восстановления абсолютных координат, плюс хранение поправочного коэффициента («123» в этом примере).

Предварительная информация о геномах

Дальнейшее сокращение может быть достигнуто, если все возможные позиции замен в пуле последовательностей генома известны заранее. ^[4] Например, если известны все местоположения SNP в популяции человека, то нет необходимости регистрировать информацию о координатах вариантов (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает целесообразным, поскольку такая информация обычно неполна или недоступна.

Кодирование геномных координат

Схемы кодирования используются для преобразования целых чисел координат в двоичную форму для обеспечения дополнительного сжатия. Конструкции кодирования, такие как код Голомба и код Хаффмана , были включены в инструменты сжатия геномных данных. ^[5]^[6]^[7]^[8]^[9]^[10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность извлечения информации о последовательности.

Выбор дизайна алгоритма

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может быть более подходящим для определенных целей и задач. Таким образом, несколько вариантов дизайна, которые потенциально влияют на производительность сжатия, могут быть важны для рассмотрения.

Последовательность ссылок

Выбор референсной последовательности для относительного сжатия может повлиять на производительность сжатия. Выбор консенсусной референсной последовательности вместо более конкретной референсной последовательности (например, пересмотренной Кембриджской референсной последовательности ) может привести к более высокому коэффициенту сжатия, поскольку консенсусная референсная последовательность может содержать меньше предвзятости в своих данных. ^[4] Однако знание об источнике сжимаемой последовательности может быть использовано для достижения большего выигрыша в сжатии. Была предложена идея использования нескольких референсных последовательностей. ^[4] Брэндон и др. (2009) ^[4] намекнули на потенциальное использование шаблонов референсных последовательностей, специфичных для этнических групп, используя сжатие данных вариантов митохондриальной ДНК в качестве примера (см. Рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в последовательностях митохондриальной ДНК африканцев, азиатов и евразийцев относительно пересмотренной Кембриджской референсной последовательности . Их результат предполагает, что пересмотренная Кембриджская референсная последовательность не всегда может быть оптимальной, поскольку необходимо хранить большее количество вариантов при ее использовании против данных от этнически далеких людей. Кроме того, эталонная последовательность может быть разработана на основе статистических свойств ^[1]^[4] или спроектирована ^[11]^[12] для улучшения степени сжатия.

Схемы кодирования

Было изучено применение различных типов схем кодирования для кодирования вариантов баз и геномных координат. ^[4] Фиксированные коды, такие как код Голомба и код Райса , подходят, когда распределение вариантов или координат (представленных как целое число) хорошо определено. Переменные коды, такие как код Хаффмана , обеспечивают более общую схему кодирования энтропии, когда базовое распределение вариантов и/или координат не очень хорошо определено (это обычно имеет место в данных геномной последовательности).

Список инструментов сжатия данных геномного ресеквенирования

Коэффициент сжатия имеющихся в настоящее время инструментов сжатия геномных данных колеблется от 65 до 1200 раз для человеческих геномов. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] Очень близкие варианты или ревизии одного и того же генома могут быть сжаты очень эффективно (например, сообщалось о коэффициенте сжатия 18 133 ^[6] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не является показателем типичного коэффициента сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенной схемой кодирования среди этих инструментов является кодирование Хаффмана , которое используется для сжатия данных без потерь .

Ссылки

^ ab Джанкарло, Р.; Скатурро, Д.; Утро, Ф. (2009). «Сжатие текстовых данных в вычислительной биологии: синопсис». Биоинформатика . 25 (13): 1575–1586. doi : 10.1093/bioinformatics/btp117 . PMID 19251772.
^ Nalbantog̃Lu, OU; Russell, DJ; Sayood, K. (2010). «Концепции и алгоритмы сжатия данных и их применение в биоинформатике». Entropy . 12 (1): 34. doi : 10.3390/e12010034 . PMC 2821113 . PMID 20157640.
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 .
^ abcdefghi Брэндон, MC; Уоллес, DC; Балди, P. (2009). «Структуры данных и алгоритмы сжатия для данных геномной последовательности». Биоинформатика . 25 (14): 1731–1738. doi :10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783 .
^ abc Deorowicz, S.; Grabowski, S. (2011). «Надежное относительное сжатие геномов со случайным доступом». Биоинформатика . 27 (21): 2979–2986. doi : 10.1093/bioinformatics/btr505 . PMID 21896510.
^ abcd Ван, C.; Чжан, D. (2011). «Новый инструмент сжатия для эффективного хранения данных повторного секвенирования генома». Nucleic Acids Research . 39 (7): e45. doi :10.1093/nar/gkr009. PMC 3074166. PMID 21266471 .
^ abc Pinho, AJ; Pratas, D.; Garcia, SP (2012). "GReEn: Инструмент для эффективного сжатия данных повторного секвенирования генома". Nucleic Acids Research . 40 (4): e27. doi :10.1093/nar/gkr1124. PMC 3287168. PMID 22139935 .
^ abc Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Компактное кодирование геномной последовательности и качественных данных". Биоинформатика . 26 (17): 2192–2194. doi :10.1093/bioinformatics/btq346. PMID 20605925.
^ abc Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). «Человеческие геномы как вложения электронной почты». Биоинформатика . 25 (2): 274–275. doi : 10.1093/bioinformatics/btn582 . PMID 18996942.
^ abc Павличин, Д.С.; Вайсман, Т.; Йона, Г. (2013). «Геном человека снова сокращается». Биоинформатика . 29 (17): 2199–2302. doi : 10.1093/bioinformatics/btt362 . PMID 23793748.
^ Куруппу, Шаника; Пуглиси, Саймон Дж.; Зобель, Джастин (2011). «Построение референтной последовательности для относительного сжатия геномов». Обработка строк и поиск информации . Конспект лекций по информатике. Том 7024. С. 420–425. doi :10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
^ Грабовский, Шимон; Деорович, Себастьян (2011). «Инженерное относительное сжатие геномов». arXiv : 1103.2351 [cs.CE].
^ ab Pratas, D., Pinho, AJ, and Ferreira, PJSG Эффективное сжатие геномных последовательностей. Конференция по сжатию данных , Сноуберд, Юта, 2016.
^ «Важность сжатия данных в области геномики». IEEE Pulse . 2019-04-26 . Получено 2024-02-22 .
^ Лан, Дивон; Лламас, Бастьен (14 сентября 2022 г.). «Genozip 14 — достижения в сжатии файлов BAM и CRAM». bioRxiv . doi :10.1101/2022.09.12.507582. S2CID 252357508.
^ Лан, Дивон; Хьюз, Дэниел СТ; Лламас, Бастьен (7 июля 2023 г.). «Глубокое совместное сжатие FASTQ и BAM в Genozip 15». bioRxiv . doi :10.1101/2023.07.07.548069. S2CID 259764998.
^ Лан, Дивон; Тоблер, Рэй; Соулми, Яссин; Льямас, Бастьен (25 августа 2021 г.). «Genozip: универсальный расширяемый геномный компрессор данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897 .
^ CRAM-бенчмаркинг
^ Спецификация формата CRAM (версия 3.0)
^ "ISO/IEC 23092-2:2019 Информационные технологии — Представление геномной информации — Часть 2: Кодирование геномной информации". iso.org .
^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид Дж.; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (27 сентября 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv 10.1101/426353 .
^ Хугстрат, Юрий; Дженстер, Гвидо В.; ван де Веркен, Хармен Дж.Г. (декабрь 2021 г.). «FASTAFS: виртуализация файловой системы сжатых файлов FASTA с произвольным доступом». БМК Биоинформатика . 22 (1): 535. doi : 10.1186/s12859-021-04455-3 . ПМЦ 8558547 . ПМИД 34724897.