stringtranslate.com

Формат варианта вызова

Формат вызова вариантов или VCF — это стандартный формат текстового файла, используемый в биоинформатике для хранения последовательностей генов или вариаций последовательностей ДНК . Формат был разработан в 2010 году для проекта 1000 Genomes Project и с тех пор использовался другими крупномасштабными проектами по генотипированию и секвенированию ДНК . [1] [2] VCF — это распространенный формат вывода для программ вызова вариантов из-за его относительной простоты и масштабируемости. [3] [4] Было разработано множество инструментов для редактирования и манипулирования файлами VCF, включая VCFtools, который был выпущен вместе с форматом VCF в 2011 году, и BCFtools, который был включен как часть SAMtools, пока не был разделен на независимый пакет в 2014 году. [1] [5]

В настоящее время действует стандарт версии 4.5, [6] [7], хотя проект «1000 геномов» разработал собственную спецификацию для структурных вариаций, таких как дупликации, которые нелегко вписать в существующую схему. [8]

На основе VCF были разработаны дополнительные форматы файлов, включая геномный VCF ( gVCF ). gVCF — это расширенный формат, который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествах. [9] [10]

Пример

##формат_файла=VCFv4.3##Датафайла=20090805##source=myImputationProgramV3.1##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta##contig=<ID=20,длина=62435964,сборка=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,вид="Homo sapiens",таксономия=x>##фазирование=частичное##INFO=<ID=NS,Number=1,Type=Integer,Description="Количество выборок с данными">##INFO=<ID=DP,Number=1,Type=Integer,Description="Общая глубина">##INFO=<ID=AF,Number=A,Type=Float,Description="Частота аллеля">##INFO=<ID=AA,Number=1,Type=String,Description="Предковый аллель">##INFO=<ID=DB,Number=0,Type=Flag,Description="членство в dbSNP, сборка 129">##INFO=<ID=H2,Number=0,Type=Flag,Description="членство в HapMap2">##FILTER=<ID=q10,Description="Качество ниже 10">##FILTER=<ID=s50,Description="Менее 50% выборок имеют данные">##FORMAT=<ID=GT,Number=1,Type=String,Description="Генотип">##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Качество генотипа">##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Глубина чтения">##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Качество гаплотипа">#CHROM POS ID REF ALT QUAL FILTER ФОРМАТ ИНФОРМАЦИИ NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 ПРОЙДЕН NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.20 17330 . TA 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:320 1110696 rs6040355 AG,T 67 ПРОЙДЕН NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:420 1230237 . T . 47 ПРОЙДЕН NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:220 1234567 microsat1 GTC G,GTCT 50 ПРОЙДЕН NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
BCF против VCF
Демонстрация разницы между двоичными форматами BCF и VCF.

Заголовок VCF

Заголовок начинает файл и предоставляет метаданные, описывающие тело файла. Строки заголовка обозначаются как начинающиеся с # . Специальные ключевые слова в заголовке обозначаются ## . Рекомендуемые ключевые слова включают fileformat , fileDate и reference .

Заголовок содержит ключевые слова, которые семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. ниже).

Столбцы VCF

Тело VCF следует за заголовком и разделено табуляцией на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые могут использоваться для записи другой информации об образце(ах). При использовании дополнительных столбцов первый дополнительный столбец используется для описания формата данных в последующих столбцах.

Общие поля ИНФОРМАЦИИ

Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны): [6]

Все остальные поля информации определяются в заголовке .vcf.

Общие поля ФОРМАТА

Все остальные поля формата определяются в заголовке .vcf.

Смотрите также

Ссылки

  1. ^ ab Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton; Marth, Gabor T.; Sherry, Stephen T.; McVean, Gilean; Durbin, Richard (01.08.2011). "Формат вызова варианта и VCFtools". Bioinformatics . 27 (15): 2156–2158. doi :10.1093/bioinformatics/btr330. ISSN  1367-4803. PMC  3137218 . PMID  21653522.
  2. ^ Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК». IEEE Spectrum . Получено 22 марта 2015 г.
  3. ^ "Понимание формата VCF | Генетическая вариация человека". EMBL-EBI . Архивировано из оригинала 2023-04-20 . Получено 10.11.2023 .
  4. ^ Гаррисон, Эрик; Кроненберг, Зев Н.; Доусон, Эрик Т.; Педерсен, Брент С.; Принс, Петр (2022-05-31). "Спектр бесплатных программных инструментов для обработки формата вызова варианта VCF: vcflib, bio-vcf, cyvcf2, hts-nim и slivar". PLOS Computational Biology . 18 (5): e1009123. Bibcode : 2022PLSCB..18E9123G. doi : 10.1371/journal.pcbi.1009123 . ISSN  1553-734X. PMC 9286226. PMID 35639788  . 
  5. ^ Данечек, Петр; Бонфилд, Джеймс К; Лиддл, Дженнифер; Маршалл, Джон; Охан, Валериу; Поллард, Мартин О; Уитвэм, Эндрю; Кин, Томас; Маккарти, Шейн А; Дэвис, Роберт М; Ли, Хэн (29.01.2021). "Двенадцать лет SAMtools и BCFtools". GigaScience . 10 (2). doi :10.1093/gigascience/giab008. ISSN  2047-217X. PMC 7931819 . PMID  33590861. 
  6. ^ ab "Спецификация VCF" (PDF) . Получено 30 июля 2024 г. .
  7. ^ "Спецификации SAM/BAM и связанных с ними форматов файлов высокопроизводительного секвенирования". GitHub . Получено 24 июня 2014 г.
  8. ^ "Кодирование структурных вариантов в VCF (формат вызова вариантов) версии 4.0 | 1000 геномов" . Получено 20 октября 2016 г.
  9. ^ "GVCF - Формат вызова геномного варианта". GATK . Институт Брода.
  10. ^ "Файлы gVCF". Illumina, Inc. Получено 10.11.2023 .
  11. ^ "Спецификации формата HTS". samtools.github.io . Получено 2022-02-22 .
  12. ^ "Bio-IT World". www.bio-itworld.com . Получено 26.10.2018 .

Внешние ссылки