如何用WGDI进行共线性分析(中)

Ks可视化

我们在上一篇如何用WGDI进行共线性分析(一)得到共线性分析结果和Ks值输出结果的整合表格文件后，我们就可以绘制Ks点阵图和Ks频率分布图对共线性区的Ks进行探索性分析，从而确定可能的Ks峰值，用于后续分析。

Ks点阵图

最初绘制的点图信息量很大，基本上涵盖了历史上发生的加倍事件所产生的共线性区。我们能大致的判断片段是否存在复制以及复制了多少次，至于这些片段是否来自于同一次加倍事件则不太好确定。借助于Ks信息 (Ks值可以反应一定尺度内的演化时间)，我们就可以较为容易地根据点阵图上共线性区域的颜色来区分多倍化事件。

首先，创建配置文件（这次是 -bk模块，BlockKs）

wgdi -bk \? >> ath.conf

然后，修改配置文件

[blockks]
lens1 = ath.len
lens2 = ath.len
genome1_name =  A. thaliana
genome2_name =  A. thaliana
blockinfo =  ath_block_information.csv
pvalue = 0.05
tandem = true
tandem_length = 200
markersize = 1
area = 0,3
block_length =  5
figsize = 8,8
savefig = ath.ks.dotplot.pdf

blockinfo 是前面共线性分析和Ks分析的整合结果，是绘图的基础。根据下面几个标准进行过滤

pvalue: 共线性区的显著性，对应blockinfo中的pvalue列
tandem: 是否过滤由串联基因所形成的共线性区，即点阵图中对角线部分
tandem_length: 如果过滤，那么评估tandem的标准就是两个区块的物理距离
block_length: 一个共线区的最小基因对的数量，对应blockinfo中的length列

最后运行wgdi，输出图片。

wgdi -bk ath.conf

输出图片中的Ks的取值范围由参数area控制。图中的每个点都是各个共线性区内的基因对的Ks值。不难发现每个共线区内的Ks的颜色都差不多，意味着Ks值波动不大，基于这个现象，我们在判定Ks峰值的时候，采用共线性区的中位数就比其他方式要准确的多。在图中，我们大致能观察到2种颜色，绿色和蓝色，对应着两次比较近的加倍事件。

Ks点阵图

Ks频率分布图

除了用点阵图展示Ks外，我们还可以绘制Ks频率的分布情况。假如一个物种在历史上发生过多倍化，那么从那个时间点增加的基因经过相同时间的演化后，基因对之间的Ks值应该相差不多，即，归属于某个Ks区间的频率会明显高于其他区间。

首先，创建配置文件（-kp, ksPeak）

wgdi -kp ? >> ath.conf

然后，修改配置文件

[kspeaks]
blockinfo = ath_block_information.csv
pvalue = 0.05
tandem = true
block_length = 5
ks_area = 0,10
multiple  = 1
homo = -1,1
fontsize = 9
area = 0,3
figsize = 10,6.18
savefig = ath.ks_median.distri.pdf
savefile = ath.ks_median.distri.csv

这一步除了输出Ks峰图(savefig)外，还会输出一个根据输入文件( blockinfo )进行过滤后的输出文件(savefile)。过滤标准除了之前Ks点阵图提及的 tandem, pvalue, block_length 外，还多了三个参数, ks_area, multiple, homo.

pvalue: 共线性区的显著性，对应blockinfo中的pvalue列，pvalue设置为0.05时会保留看着很不错的共线性片段，但是会导致古老片段的减少。
ks_area对应blockinfo中的ks列，该列记录了共线区所有基因对的ks值。ks_area=0,10 表示只保留ks值在0到10之间的基因对。
multiple和blockinfo中的homo1,homo2,homo3,home4,homo5...列有关。一般默认为1, 表示选择homo1列用于后续的过滤。如果改成multiple=2, 表示选择homo2
homo用于根据共线性中基因对的总体得分(取值范围为-1到1，值越高表明最佳匹配的基因对越多)对共线性区域进行过滤。当multiple=1, homo=-1,1时，表示根据homo1进行过滤，只保留取值范围在-1到1之间的共线性区。

最后运行程序

wgdi -kp ath.conf

Ks频率分布图

从图中，我们能够更加直观的观察到2个peak，基本确定2个多倍化事件。

既然得到了一个Ks的peak图，我们可以和另一款工具wgd的拟南芥分析结果进行对比。wgd的Ks值计算流程为，先进行所有蛋白之间的相互比对，根据基因之间的同源性进行聚类，然后构建系统发育树确定同源基因，最后调用PAML的codeml计算Ks，对应下图A的A.thaliana。如果存在参考基因组，那么根据共线性锚点（对应下图D）对Ks分布进行更新, 对应下图A的A.thaliana anchors。

wgd的分析结果

同样是拟南芥的分析，wgd的点图（上图D）信息比较杂乱，存在较多的噪声点，而WGDI的Ks点阵图能有效的反应出不同共线性区域的Ks特点。wgd的Ks分布图中的只能看到一个比较明显的峰，而WGDI的分析结果能明显的观察到两个。wgd在Ks上存在的问题很大一部分原因是它们是直接采用旁系同源基因计算ks，容易受到串联重复基因积累的影响。而wgd则是基于共线性区计算Ks，结果更加可靠，尤其是后续还可以通过不断的调整参数，来确保Ks的峰值正确判断，这也是为什么在绘制Ks频率分布图的同时还要生成一个过滤后的文件。

题外话: wgd是我在2019年学习WGD相关分析找到的一个流程工具，那个时候虽然也看了文章里面关于软件的细节介绍，但是由于对比较基因组学这一领域并不熟悉，所以也不好评判结果的可靠性。最近在学习wgdi时，一直和开发者反复讨论软件的一些参数细节，这才知道这里面的很多细节。这也警醒我，不能追求软件数量上的多，只求用软件跑出自己想要的结果发表文章，失去了科研的严谨性。

我们会在下一节介绍如何利用Ks点阵图和Ks频率分布图更可靠的拟合Ks峰值。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

如何用WGDI进行共线性分析(中)

Ks可视化

Ks点阵图

Ks频率分布图

推荐阅读更多精彩内容