VCF文件格式

文章仅是记录自己的学习使用,有错误请指出,我立刻改正!

官方说明:https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
更多说明:
https://cloud.tencent.com/developer/article/1607926
https://www.jianshu.com/p/b2b30b23c866
https://zhuanlan.zhihu.com/p/519356332

一、注释部分

“#”开头的注释部分,包含对VCF的介绍信息

##fileformat=VCFv4.2
##fileDate=20211116
##source=freeBayes v1.3.4
##reference=genome.fasta
##contig=<ID=Chr01,length=70190195>
##contig=<ID=Chr02,length=25710898>
##contig=<ID=Chr04,length=25286349>
##contig=<ID=Chr05,length=24731975>
......
##commandline="freebayes -f genome.fasta --use-best-n-alleles 3 --min-mapping-quality 20 merge.bam 
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total read depth at the locus">
##INFO=<ID=DPB,Number=1,Type=Float,Description="Total read depth per bp at the locus; bases in reads overlapping / bases in haplotype">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Total number of alternate alleles in called genotypes">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=AF,Number=A,Type=Float,Description="Estimated allele frequency in the range (0,1]">
##INFO=<ID=RO,Number=1,Type=Integer,Description="Count of full observations of the reference haplotype.">
......

二、主体部分

[0]CHROM    [1]POS    [2]ID    [3]REF    [4]ALT    [5]QUAL    [6]FILTER    [7]INFO    [8]FORMAT    [9]SAMPLES
[0]Chr05    [1]20000355    [2].    [3]A    [4]G    [5]51.3669   [6].    [7]AB=0;ABP=0;AC=6;AF=0.428571;AN=14;AO=4;CIGAR=1X;......TYPE=snp    [8]GT:DP:AD:RO:QR:AO:QA:GL [9]1/1:1:0,1:0:0:1:37:-3.69783,-0.30103,0
  • [0] CHROM : 参考序列名称,表示变异位点是在哪个contig/chr里call出来的。
  • [1] POS: 变异位点(variant)相对于参考基因组所在的位置,发生变异的位置的第一个碱基所在的位置)。
  • [2] ID:variant的ID,如call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号,若没有,则默认使用‘.’。
  • [3] REF:参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)。
  • [4] ALT:变异位点的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化。
  • [5] QUAL:可以理解为变异位点的质量值。Q=-10lgP,Q表示质量值,P表示这个位点发生错误的概率。因此,如果想把错误率控制在10%,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。
  • [6] FILTER:理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但这是做不到的。因此,还需要对原始变异位点做进一步的过滤。FILTER,即过滤记录,PASS代表通过了filter,“.”代表没有进行任何过滤。
  • [7] INFO : 变异位点的相关信息
  • [8] FORMAT:变异位点的格式,例如GT:AD:DP:GQ:PL
  • [9] SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着FORMAT列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列。

三、FORMAT列详解

(一)GT : genotype

  • 样品的基因型(genotype),两个数字中间用‘/’分开,两个数字表示双倍体的sample的基因型。0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);2表示有第二个variant的allele(和ALT的第二种碱基相同)对于SNP是指单个碱基类型相同而对于Indel是指碱基类型及个数均相同
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

(二)AD和DP

  • AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型。
  • DP(Depth)为sample中该位点的覆盖度,是两个AD值的加和。覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
例:GT:AD(REF),AD(ALT):DP  1/1:0,175:175

(三)GQ

  • 基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值=-10*log(1-P),P为基因型存在的概率(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)。
  • QUAL和GQ的区别:
    1、QUAL,Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
    2、GQ,基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。
    GQ告诉我们对分配给特定样品的基因型正确的概率有多大。
    QUAL是指变异位点,而GQ是指特定样品的GT。
    QUAL告诉我们对于给定位点是否存在变异,该变异可以存在于一个或多个样本中。
    也就是QUAL是针对该位点的,和样本无关,只是说明这个位点存在变异的可能性,而GQ是和样本相关的,它表示该样本基因型的可能性。

(四)PL(likelihood genotypes)

对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这个值越小,概率就越大,即这个基因型的可能性越大。

四、INFO列详解

  • 第8列的信息包括18种,都是以“TAG=Value”,并使用分号分隔的形式,其中大多在VCF文件的头部注释中给出

(一)AC,AF和AN

  • AC:variant数目,AF:频率,AN:总数目
AC(Allele Count)表示与variant一致的Allele(等位碱基)的数目
AF(Allele Frequency)表示Allele的频率,AF值=AC值/AN值
AN(Allele Number)表示Allele的总数目。

(二)DP

  • 表示过滤后的reads覆盖度。

(三)FS

  • FisherStrand,表示使用Fisher’s精确检验来检测strand bias,得到的Fhred格式的p值,该值越小越好;如果该值较大,表示strand bias(正负链偏移)越严重,即所检测到的variants位点上,reads比对到正负义链上的比例不均衡。
    一般进行filter的时候,推荐保留FS<10~20的variants位点。GATK可设定FS参数。

(四)ReadPosRandSum

  • 当variants出现在reads尾部的时候,其结果可能不准确。该值用于衡量alternative allele,相比于reference allele,variant位点是否匹配到reads更靠中部的位置。
    因此只有基因型是杂合且有一个allele和参考基因组一致的时候,才能计算该值。
    1、若该值为正值,表明和alternative allele相当于reference allele,落来reads更靠中部的位置
    2、若该值是负值,则表示alternative allele相比于reference allele落在reads更靠尾部的位置。
    进行filter的之后,推荐保留ReadPosRankSum>-1.65~-3.0的variant位点。

(五)MQRankSum

  • 该值用于衡量alternative allele上reads的mapping quality与reference allele上reads的mapping quality的差异。若该值是负数值,则表明alternative allele比reference allele的reads mapping quality差。
    进行filter的时候,推荐保留MQRankSum>-1.65~-3.0的variant位点。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容