首先,对 vcf 文件的格式进行转换,转换为 plink 格式:
vcftools --gzvcf test.vcf.gz --plink --out test_out
而后根据连锁不平衡对数据进行过滤:
plink --noweb --file test_out --indep-pairwise 50 10 0.1 --geno 0 --out test_out
plink --file test_out --make-bed --extract test_out.prune.in --chr-set 12 no-xy --out test_out2
plink --bfile test_out2 --recode 12 --out test_out3
基于上述文件,首先计算 admixture:
for i in {2..8}; do admixture --cv test_out3.ped ${i} | tee log${i}.out; done
然后使用 gcta 进行 PCA 分析
gcta64 --make-grm --out test_PCA --bfile test_out2 --autosome-num 12
gcta64 --grm test_PCA --pca 3 --out test_PCA_out
最后构建 NJ 树:
plink --file Nip_Low_Depth3 --distance-matrix --out Nip_distance2