为什么不能通过 GATK 的 PL 直接计算基因型剂量(Genotype dosage)

GATK 的 PL 比较特殊,它是不能直接用于基因型剂量(Genotype dosage)的计算的。这次我们就来谈一谈这个问题。

有时候我们需要在项目中用基因型剂量来代替基因型(Genotype),特别是进行低深度(<10x)数据的全基因组关联分析(GWAS)时,就经常会做这个转换。这是因为低深度数据由于样本覆盖深度不足,在个体基因型上往往会存在更多的不确定性甚至Missing的情况,这会降低GWAS的功效(Power)——有时候还十分明显这时如果能够将数据中的这种不确定性体现出来,是能够有效改善结果的Power的。基因型剂量恰好能描述这类不确定性,它描述的是某一个样本在一个位点上预期的突变碱基(即非参考序列碱基)个数,计算公式很简单,如下:

dosage = Pr(het|data) + 2 * Pr(hom|data)

其中,Pr(het|data) 指的是某一样本在该位点的基因型为杂合突变的后验概率,Pr(hom|data)指的是某一样本在该位点的基因型为纯合突变的后验概率,经过计算你会发现这个 dosage 将确定的基因型转换为了通过概率来描述的突变等位基因(Allelle)个数——并且是一个连续的数值,值域为0到2。

通常来说,你使用Freebayes、GATK、甚至samtools这些工具得到样本的变异结果之后,其对应的结果文件(VCF格式)中通常都有会有一个用来描述每一个样本在三种基因型上的后验概率值,找出来就可以计算了。只不过为了表示上的方便,这些后验概率值通常都会被转化为Phred-scale,一般用 PL 标签记录(如附图)。

过后验概率计算 PL 的公式是:

PL = -10 log (Pr)

需要注意的是,这里的 log 是底数为 10 的对数,Pr 是基因型的后验概率,对于二倍体基因组(比如人类)将样本里每个位点的三种基因型代入进去就可以得到该样本在每一个位点上三种基因型的 PL 分别是多少了,举个例子:

* 参考序列碱基(Reference):A
* 突变碱基:C

该位点上 AA、AC 和 CC 这三个不同基因型各自的后验概率假设如下:

Pr(AA|data) = 0.001
Pr(AC|data) = 0.010
Pr(CC|data) = 0.989

那么它们各自的 PL 分别是:

-10*log(0.001) = 30
-10*log(0.010) = 20
-10*log(0.989) = 0.05

从这个计算我们可以看出,PL 最小的基因型是最可信的基因型。反过来,也可以根据上面的公式很容易地将 PL 还原为基因型的后验概率。这样一来通过 PL 计算基因型剂量这本身应该是一个很简单的事情,事实上,bcftools 都有直接的计算命令可以使用。那我为什么还要大费周章专门写一篇文章来讨论呢?这个原因就出在GATK上。当你仔细去看 GATK 得到的 PL 时,你会发现事情不对了!你可以看到 GATK HaplotypeCaller 或者经过 GenotypeGVCFs 之后,后验概率最大的那个基因型它的 PL 竟然都是0,这时直接通过 PL 转换计算之后,所有样本的 Genotype dosage 不但是错,而且还会出现大于 2 的情况——而这是不可能的。那这是怎么回事呢?原来,这是因为 GATK HaplotypeCaller 和GATK GenotypeGVCFs 所得到的 PL 并非是直接由基因型后验概率转换而来,而是经过了一次预处理之后才给出。那为何要做这个预处理呢?还是看上面我给出的例子,Pr(CC|data) 的 PL 等于 0.05,这个数和其他的两个整数放在一起多少显得不够“漂亮”,不够简洁!GATK 为了结果的简洁和清晰,就将三个基因型的后验概率全部除以那个最大的后验概率值,这个预处理在GATK中称之为“归一化”——其实就是将数据按照最大值进行了缩放,然后再计算 PL,并且全部取整。这样我们就明白了,做了这个除法运算之后原来后验概率最大的基因型,其概率值就都变成了1(如:Pr(CC|data)/Pr(CC|data) = 1),而其他的两个值,就相当于是最好基因型的几分之几,或者你也可以理解为最好基因型比其他两个分别好上多少倍。虽然这个计算改变了原来的值,但是却可以提升数据的解析度和可读性。因此,如果直接用现有的计算工具(bcftools +dosage),是一定得不到正确的结果的,这个时候,我们就得自己写程序来解决了。可是该怎么办呢?经过上面的描述之后,你可能也大致清楚了,这里的难点就在于要将原来最好基因型的后验概率值重新计算出来,怎么计算呢? 我还是以上面的例子为基础给大家列一下计算过程,一切就都清楚了:我们假设由 GATK 归一化的 PL 值转换(Phred-scale计算公式的逆运算)得到的基因型“相对”后验概率值(加上相对是为了和后面真正的后验概率值作区分)为: n_Pr(AA|data),n_Pr(AC|data) 和 n_Pr(CC|data)。我们现在的目标是依据这三个值重新计算出它们真正的基因型后验概率值: Pr(AA|data)、Pr(AC|data) 和Pr(CC|data)。

将 PL 转换为概率值是一定要先做的,之后才能完成后续计算。

假设这三个基因型中后验概率值最大的是 Pr(CC|data) —— 如果你要假设为其它的两个也可以,那么依据上面的讨论我们知道:


n_Pr(AA|data) = Pr(AA|data) / Pr(CC|data)
n_Pr(AC|data) = Pr(AC|data) / Pr(CC|data)
n_Pr(CC|data) = Pr(CC|data) / Pr(CC|data)

将上面三个数学表达式相加,得到:

n_Pr(AA|data) + n_Pr(AC|data) + n_Pr(CC|data) = [Pr(AA|data)+Pr(AC|data)+Pr(CC|data)]/Pr(CC|data)

而我们知道三个基因型的原始后验概率之和一定是等于 1 的,所以,我们就可以得到,Pr(CC|data) 这个最大的后验概率值是:

Pr(CC|data) = 1/(n_Pr(AA|data) + n_Pr(AC|data) + n_Pr(CC|data))

刚好就是 1 除以三个相对后验概率值之和!得到 Pr(CC|data) 之后,剩下的 Pr(AA|data) 和Pr(AC|data) 也同样可以得到。

那么,通过 GATK 的 PL 计算基因型剂量的问题也就解决了:

dosage = Pr(AC|data) + 2 * Pr(CC|data)

最后,我将这个计算转换的过程写成了Python代码,可以直接使用(附图为部分代码示意),完整的代码只分享在知识星球——“达尔文生信星球”之中了。不过,我在截取图片的时候,已经将计算dosage的核心代码包含在内了,如果此刻你觉得还不需要加入我的知识星球,那么也可以参考这一段代码去实现你的程序。


如果喜欢更多的生物信息和组学文章,搜索并关注我的微信公众号“碱基矿工”(ID: helixminer)

碱基矿工

你还可以读

这是我的知识星球:『达尔文生信星球』(原名:解螺旋技术交流圈),是一个我与读者朋友们的私人朋友圈,如今已有超过400人在星球中一起学习和交流。我有9年前沿而完整的生物信息学、NGS领域的科研经历,在该领域发有多篇Nature、Cell级别的科学文章,我希望借助这个知识星球可以与更多的志同道合者沟通和交流,同时也把自己的一些微薄经验分享给更多对组学感兴趣的伙伴们。
这是知识星球上第一个与基因组学和生物信息学强相关的圈子,也是官方评定的优秀星球。如今已经累计超过1100个主题,希望能够借此营造一个高质量的组学知识圈和人脉圈,通过提问、彼此分享、交流经验、心得等,促进彼此更好地学习生信知识,共同提升基因组数据分析和解读的能力。

在这里你可以结识到全国优秀的基因组学和生物信息学专家,同时可以分享你的经验、见解和思考,有问题也可以向我提问和星球里的星友们提问。

达尔文生信星球
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345