Формат вызова вариантов или VCF — это стандартный формат текстового файла, используемый в биоинформатике для хранения последовательностей генов или вариаций последовательностей ДНК . Формат был разработан в 2010 году для проекта 1000 Genomes Project и с тех пор использовался другими крупномасштабными проектами по генотипированию и секвенированию ДНК . [1] [2] VCF — это распространенный формат вывода для программ вызова вариантов из-за его относительной простоты и масштабируемости. [3] [4] Было разработано множество инструментов для редактирования и манипулирования файлами VCF, включая VCFtools, который был выпущен вместе с форматом VCF в 2011 году, и BCFtools, который был включен как часть SAMtools, пока не был разделен на независимый пакет в 2014 году. [1] [5]
В настоящее время действует стандарт версии 4.5, [6] [7], хотя проект «1000 геномов» разработал собственную спецификацию для структурных вариаций, таких как дупликации, которые нелегко вписать в существующую схему. [8]
На основе VCF были разработаны дополнительные форматы файлов, включая геномный VCF ( gVCF ). gVCF — это расширенный формат, который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествах. [9] [10]
##формат_файла=VCFv4.3##Датафайла=20090805##source=myImputationProgramV3.1##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta##contig=<ID=20,длина=62435964,сборка=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,вид="Homo sapiens",таксономия=x>##фазирование=частичное##INFO=<ID=NS,Number=1,Type=Integer,Description="Количество выборок с данными">##INFO=<ID=DP,Number=1,Type=Integer,Description="Общая глубина">##INFO=<ID=AF,Number=A,Type=Float,Description="Частота аллеля">##INFO=<ID=AA,Number=1,Type=String,Description="Предковый аллель">##INFO=<ID=DB,Number=0,Type=Flag,Description="членство в dbSNP, сборка 129">##INFO=<ID=H2,Number=0,Type=Flag,Description="членство в HapMap2">##FILTER=<ID=q10,Description="Качество ниже 10">##FILTER=<ID=s50,Description="Менее 50% выборок имеют данные">##FORMAT=<ID=GT,Number=1,Type=String,Description="Генотип">##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Качество генотипа">##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Глубина чтения">##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Качество гаплотипа">#CHROM POS ID REF ALT QUAL FILTER ФОРМАТ ИНФОРМАЦИИ NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 ПРОЙДЕН NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.20 17330 . TA 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:320 1110696 rs6040355 AG,T 67 ПРОЙДЕН NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:420 1230237 . T . 47 ПРОЙДЕН NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:220 1234567 microsat1 GTC G,GTCT 50 ПРОЙДЕН NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Заголовок начинает файл и предоставляет метаданные, описывающие тело файла. Строки заголовка обозначаются как начинающиеся с # . Специальные ключевые слова в заголовке обозначаются ## . Рекомендуемые ключевые слова включают fileformat , fileDate и reference .
Заголовок содержит ключевые слова, которые семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. ниже).
Тело VCF следует за заголовком и разделено табуляцией на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые могут использоваться для записи другой информации об образце(ах). При использовании дополнительных столбцов первый дополнительный столбец используется для описания формата данных в последующих столбцах.
Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны): [6]
Все остальные поля информации определяются в заголовке .vcf.
Все остальные поля формата определяются в заголовке .vcf.