写在前面
复现文章中的figure是检验自己是否完全掌握工具的使用最重要的方式,下面我以2019年南京大学杨四海老师发表在PNAS上的文章Large-scale identification and functional analysis of NLR genes in blast resistance in the Tetep rice genome sequence
中的F.S3。
要复现的图太长了,部分展示一下。
作者真的是体贴,还把鉴定到的NLRs放在了figshare上【https://figshare.com/articles/Datasets_for_Tetep_genome_analysis/7775810/1】,figshare也是一个好网站,有时间写一下它的用法。
正文
1.数据预处理
#下载figshare上的压缩包并解压缩
tar -zxvf Bdistachyon.NLRs.tar.gz
tar -zxvf Nipponbare.NLRs.tar.gz
tar -zxvf Tetep.NLRs.tar.gz
#因为文章只用的NBS的蛋白序列做的图,所以我们就提取其中的NBS蛋白序列,并进行合并,方便后面进行多序列的比对
less Nip.NBS_all.NBS_domain_pep.fas >> three.fa
less Tetep.NBS_all.NBS_domain_pep.fas >> three.fa
less Bdistachyon_314_v3.1.NBS_all.NBS_domain_pep.fas >> three.fa
2.多序列比对
文章说蛋白序列是使用的muscle比对,我就直接用了linux 版MEGA中的muscle比对。如何使用Linux版的MEGA请看我这篇简书【https://www.jianshu.com/p/63c656e60900】
time nohup megacc -a muscle_align_protein.mao -d three.fa -f Fasta -o threeAligned.fasta
# -a是使用mao文件,在windows中设置时,如果不是很懂参数的话,直接用默认参数就好。
# -d是输入的多序列文件
# -f指定输出的类型,这里我选择的是FASTA
# -o是输出的多序列比对文件
3.Fasttree建树
#我选择的是最新版的LG模型建树
time nohup FastTree threeAligned.fasta > tree
结果展示
跟原文几乎一模一样,但文章没有告诉用什么样的模型,我也就选择了08年的LG模型。
Fasttree简单介绍
FastTree能够从核苷酸或蛋白质序列的比对中推断出极大似然系统进化树。FastTree可以在合理的时间和内存内处理多达一百万个序列的比对。对于大型比对,FastTree比PhyML 3.0或RAxML 7快100- 1000倍。
FastTree采用的模型
核酸模型:Jukes-Cantor、 generalized time-reversible(GTR)
氨基酸模型:Jones-Taylor-Thornton(JTT,1992,在2.0版本中默认是该模型)、Whelan & Goldman(WAG,2001)、Le and Gascuel(LG,2008)
Fasttree官方文件里后面的几个问题也是蛮有意思的,感兴趣的也可以看看。
参考链接
1.paper原文https://www.pnas.org/content/116/37/18479
2.数据链接 https://figshare.com/articles/Datasets_for_Tetep_genome_analysis/7775810/1
3.Fasttree http://www.microbesonline.org/fasttree/