kaks_calculator可用来计算ka,ks值,后续可计算分化时间点等。
安装
安装ParaAT
在安装kaks_calculator 之前安装比对软件paraAT,该软件是由中科院基因组所张章课题组开发,它整合了计算ka/ks所需的一整套分析的,包括:
- 蛋白序列比对(可选clustalw2 | t_coffee | mat | muscle)
- 根据蛋白比对结果回译成codon对应的核酸比对结果
- 计算kaks值
点击进行下载ParaAT
tar -xf ParaAT2.0.tar
就是运行的脚本
安装Kaks_calculator
点击进行下载
减压后,给权限即可
cd KaKs_Calculator2.0/bin/Linux
chmod 744 KaKs_Calculator
简单流程
推介使用muscle,比对速度快,效果好
准备输入文件:
- test.homologs: 同源基因对儿
- test.cds: 同源基因对儿的cds序列
- test.pep:同源基因对儿的pep序列
- proc:线程数
以上文件均可在ParaAT文件夹中找到,可做参考
运行脚本
ParaAT.pl -h test.homologs -n test.cds -a test.pep -p proc -m muscle -f axt -g -k -o result_dir
-h, 同源基因名称文件
-n, 指定核酸序列文件
-a, 指定蛋白序列文件
-p, 指定多线程文件
-m, 指定比对工具
-g, 去除比对有gap的密码子
-k, 用KaKs_Calculator 计算kaks值
-o, 输出结果的目录
-f, 输出比对文件的格式
*** 也可通过-f参数得到其他软件分析ka/k所需的格式
上述结果可直接得到每一对同源基因的ka,ks值,可通过如下命令将其整合
cat ./result_dir/*.kaks | cut -f 1,2,3,4,5 |grep -v 'Sequence' | less -S
Sequence Method Ka Ks Ka/Ks
NP_000005-NP_783327 MA 0.179102 0.653246 3.64734
NP_000006-NP_032699 MA 0.186375 0.642372 3.44666
NP_000008-NP_031409 MA 0.0501752 0.706062 14.0719
可将其整合在一个python脚本
根据上述流程将其整合为一python脚本
process_ka_ks.py -r
Options:
Options:
-h, --help show this help message and exit
-c CDS, --cds=CDS Input cds sequence files.(required)
-p PEP, --protein =PEP
Input pep sequence files.(required)
-H HOMO, --Homologs genes=HOMO
Input homologs genes files.(required)
-o OUT, --output name=OUT
output name.(required)
-t PROCESS, --number of processors=PROCESS
Input the number of processors (INT).(required)
输入全基因组的pep,cds文件即可,根据同源基因对儿自动调取相应基因并整理成ParaAT所需要的格式。
参考
- Zhang, Z., Xiao, J., Wu, J., Zhang, H., Liu, G., Wang, X. and Dai, L. (2012) ParaAT: A parallel tool for constructing multiple protein-coding DNA alignments, Biochem Biophys Res Commun, 419(4):779-7