TASSEL是最早出现的用于动植物关联分析的软件,还可以对进化模式以及连锁不平衡进行评估,功能非常强大,要说缺点,可能就是真的有点慢。
表型数据处理在下面这篇帖子中有介绍,这里使用BLUE值进行关联分析。
3.2 GWAS:最佳线性无偏估计量——BLUE值计算(多年单点有重复) - 简书 (jianshu.com)
Tassel的安装在亲缘关系计算中有提到:
8.GWAS:亲缘关系——TASSEL&GCTA - 简书 (jianshu.com)
1.准备工作
1.1 VCF文件
关联分析所用到的vcf文件是在上一步亲缘关系中,进行排序后的文件
#对vcf文件进行排序
$ perl run_pipeline.pl -Xmx10g -Xms512m -SortGenotypeFilePlugin -inputFile root.id.vcf -outputFile Troot -fileType VCF
1.2 群体结构Q文件
将群体结构分析中生成的.Q文件,增加一列对应的sample名,一行亚群名。
5. GWAS:群体结构——Admixture - 简书 (jianshu.com)
1.3 亲缘关系K文件
亲缘关系得到的kinship文件进行整理,第一行为sample数,第一列为sample名,中间为矩阵,下图以GCTA结果为例。
8. GWAS:亲缘关系——TASSEL&GCTA - 简书 (jianshu.com)
1.4 表型数据
2.关联分析
2.1 GLM:一般线性模型
-fork1 vcf文件 Troot.vcf
-fork2 表型数据文件 trait.txt
-fork3 群体结构Q文件 Q.txt
$ vim glm.sh
$ perl run_pipeline.pl -Xmx10g -Xms512m -fork1 -vcf Troot.vcf -fork2 -r trait.txt -fork3 -q Q.txt -excludeLastTrait -combine4 -input1 -input2 -input3 -intersect -glm -export tassel_glm_ -runfork1 -runfork2 -runfork3
$ bsub -n 4 -o log sh glm.sh
2.2 MLM:混合线性模型
混合线性模型中要加入系谱矩阵,即亲缘关系K矩阵。
$ vim mlm.sh
$ perl run_pipeline.pl -Xmx10g -Xms512m -fork1 -vcf Troot.vcf -fork2 -r trait.txt -fork3 -q Q.txt -excludeLastTrait -fork4 -k K.txt -combine5 -input1 -input2 -input3 -intersect -combine6 -input5 -input4 -mlm -mlmVarCompEst P3D -mlmCompressionLevel None -export tassel_mlm_ -runfork1 -runfork2 -runfork3 -runfork4
$ bsub -n 4 -o log sh mlm.sh
2.3 CMLM(Compressed Linear Mixed Model):压缩混合线性模型
MLM的矫正过于严格,会把一些真实相关的SNP标记也过滤掉,因此CMLM模型目的是重新检测到那些假阴性SNP标记。
$ vim cmlm.sh
$ perl run_pipeline.pl -Xmx10g -Xms512m -fork1 -vcf Troot.vcf -fork2 -r trait.txt -fork3 -q Q.txt -excludeLastTrait -fork4 -k K.txt -combine5 -input1 -input2 -input3 -intersect -combine6 -input5 -input4 -mlm -mlmVarCompEst P3D -mlmCompressionLevel Optimum -export tassel_cmlm_ -runfork1 -runfork2 -runfork3 -runfork4
$ bsub -n 4 -o log sh cmlm.sh
结果文件:
主要关注第六列p值,以及第七列marker_Rsq即R2贡献率。
引用转载请注明出处,如有错误敬请指出。